专利摘要:

公开号:WO1992009960A1
申请号:PCT/JP1991/000011
申请日:1991-01-10
公开日:1992-06-11
发明作者:Cyuichi Kikuchi
申请人:Telematique International Laboratories;
IPC主号:G06F16-00
专利说明:
[0001] 明 細 書 情報検索 ½理装置
[0002] 〔技術分野〕
[0003] 本発明は、 情報検索を行う情報検索処理方式に関する。 本発明は、 特に全文検 索処理方式あるいはマルチキーワードを用 {/、た部分一致検索処理方式に適するも ので、 入力された検索入力と検索対象の全文または登録キーワードとの照合回数 を大幅に削減して高速に情報検索を行うことができる情報検索処理方式に関する。 本発明はデ一タベースシステムにおいて全文検索処理またはマルチキーヮード検 索を行う情報検索処理方式に適する。
[0004] 〔背景技術〕
[0005] 従来から、 全文検索処理方式としては、 全文の最初から最後まで、 検索入力文 字列との文字列照合を行 検索者が指定する入力文字列と検索条件に合致する 文書を選出する逐次検索方式や全文からあらかじめキーヮ一ドを抽出して検索フ 了ィルを作成するィンデックス方式が全文検索技術として一般的である。 また全 文に出現する文字や文字列を表形式にして、 検索入力文字列から分解して作成す る文字や文字列の出現文書を絞り込むプリサーチ方式がある。
[0006] 逐次検索方式では、 全文の最初から最後まで、 検索入力文字列との照合を行う ため、 多量の文字列を有する文書を検索する場合、 多くの時間を要する。 このた め、 多量文書の検索では、 高速な文字列照合を行う専用のプロセッサや L S Iが 提案されているが、 これらの方式では、 ハードウェアが限定されるほか、 検索処 理を行う計算機と専用プロセッサや L S Iとの間での文字列転送に時間がかかり、 システムとして満足できる高速性の実現が課題となっている。 また、 インデック ス方式では、 任意の文字列による検索の高速化が可能であるが、 検索ファイルが 巨大になる欠点がある。 このため、 任意の文字列による検索が十分にサポートさ れないという問題がある。 また、 プリサーチ方式では、 高速性を実現するための 列処理機構や文字列照合に専用のハードウエアが必要であるほか、 登録時に抽出 する文字列の精度向上が課題となっている。
[0007] 次に、 マルチキーワードを用いたマルチキーワード検索処理方式としては、 検 索者が指定する入力文字列をキーヮード文字列として有しかつ検索条件に合致す るキーワードからレコード蕃号をサーチする逐次検索方式や、 キーヮードから検 索入力可能な文 ijを作成して索弓 I形式に検索ファィルに格納し、 検索者が指定 する入力文字列と検索条件に合致するキーワードを検索ファィルのィンデックス 構造を利用してサーチするィンデックス方式がマルチキーヮードを用いた部分一 致検索技術として一般的である。
[0008] しかし、 マルチキーワード検索処理の逐次検索処理方式は全文検索処理の逐次 検索方式と同じく検索時間がかかる。 また専用のノヽードウエアを用いると、 ハー ドウエアが PI¾されるほか、 検索処理を行う計算機と専用プロセッサや L S Iと の間での文字列転送に時間がかかる。 このためシステムとして満足できる高速性 の実現が課題となっている。
[0009] また、 マルチキーワード検索におけるインデックス方式は、 部分一致検索の高 速化が可能であるが、 検索ファイルが巨大になる欠点がある。 このため完全一致、 Ι ^一致、 後方一致の検索が使用されているが、 中間一致はサポートされていな いことが多い。 これは中間一致を行うために、完全一致、 前方一致、 後方一致の 検索ィンデックスとは別に、 中間一致用のインデックスが多量に必要になり、 検 索フアイルの記憶容量が巨大となること、 これに伴い検索時間が増大すること、 および検索ファイルの^1が容易でないことが主な理由となっている。 また、 シ ステムによつては検索ファィルの規模の制約から、 キーヮードの全ての前方一致 や後方一致がサポートされていないこともある。 しかし、検索者はキーワードの 中の特徵ある文字や文字列を記憶することが多く、 このため中間一致を含む部分 — ¾1食索のザポートにより検索がス厶ーズに行なえるようになることが求められ ている。
[0010] 本発明者は、 全文中あるいはキーワードになり得る単語に同じ文字や同じ文字 列が出現する頻度が低い特徴がある点に着目し、 検索対象文字列あるいはキーヮ
[0011] 一ドを先頭文字から 1文字ずつ、 その文字と次に続く合計 r文字で文字セッ トを 作成して文字セッ ト種ごとにグループ化した文字セッ トグループで検索ファイル を作成し、 あるいは各文字毎にグループ化した文字グループで検索ファィルを作 成し、 検索時には、 検索ファイル中から文字セッ トまたは文字の連続性を照合す ることにより検索を高速ィ匕することができることを見出した。
[0012] 本発明は、 上述の観点から大量文書を対象とする全文検索またはマルチキーヮ 一ドを用いた部分一致検索の高速化を実現でき、 しかも特定のハードウエアに限 定されず、 検索処理を主記憶上で行うことにより専用プロセッサや L S Iとの文 字列の転送が不要であり、 文字セットと文字セッ ト位置あるいは文字と文字位置 に着目することにより任意の文字列検索が可能である汎用性に富む情報検索処理 方式を提供することを目的とする。
[0013] 〔発明の開示〕
[0014] 本発明の第一の特徵は、 検索対象となる文字列を検索を行う単位である検索単 位に分けこの検索単位ごとに昇順の符号を付与する検索単位識別符号付与手段と、 この分けられた検索単位に対してその検索単位の論理的な区分を示す属性符号を 付与する属性符号付与手段と、 検索対象となる文字列から 1文字ずつ取り出し、 その文字と次に続く合計 r文字で文字セッ トを作成し、 検索単位における文字セ ッ 卜の先頭文字位置を示す文字セット位置順序符号を付与する文字セット位置順 序符号付与手段と、 上記検索単位識別符号と文字セット位置順序符号と属性符号 とからなる文字セッ ト位置情報を作成して、 この文字セッ ト位置情報を文字セッ ト種ごとの領域に格納して検索ファイルを作成する手段とを備えたことを特徴と する。
[0015] なお、 文字セッ ト位置情報は、 nを最大検索単位文字数、 aを最大属性数とす
[0016] "V" るとき { (検索単位識別符号 X II ) 十文字セッ ト位置順序符号 } x a +属性符号 なる数字コードとして与えられることが望ましい。
[0017] これにより、 複数文字からなる文字セッ ト位置情報により全文検索に使用する 検索ファイルを作成できる。
[0018] また本発明の第二の特徵は、 第一の特徵で作成された検索ファイルを備え、 検 索入力文字列の構成文字を先頭文字から r文字単位の文字セッ トに分解して検索 入力文字セット列を作成し、 この文字セッ 卜と同じ文字セット種に格納されてい る文字セッ ト位置情報を上記検索ファイルから取り出す手段と、 この取り出した 各文字セッ卜の文字セッ ト位置情報間で、 検索単位識別符号が共通で文字セッ ト 位置順 符号の差が検索入力文字列の該当する文字セッ トの先頭文字位置差に等 しくかつその属性符号が検索入力と等しい文字セッ ト位置情報の組み合わせを抽 出する手段と、 この抽出された文字セッ ト位置情報の組み合わせに基づいて文字 セット列が属する検索単位および各文字セッ ト構成各文字の検索単位における先 頭文字からの位置を示す文字位置を検索結果として出力する手段とを備えたこと を特徵とする。
[0019] なお検索入力文字歹 Uを先頭文字から Γ文字単位の文字セットに分解したとき、 最後の文字セットが (r— 1 ) 以下になり、 r文字単位の文字セットを作成でき ないことがある。 このときには、 最後の文字セットの直前の文字セットの後部か ら不足文字数分の文字を取り出し、 最後の文字セットの前部に連結して r文字単 位の文字セットを作成することが望ましい。
[0020] また、検索 λ¾文字セット列と同じ文字セット列を構成できる文字セッ ト位置 情報の組み合わせの抽出は、 検索入力の出現頻度の低い文字セットから順に行う ことか'望ましい。
[0021] また、 検索入力文字セット列と同じ文字セット列を構成できる文字セット位置 情報の組み合わせの抽出は、 検索入力文字列の全文における出現頻度の低い文字 セッ トの文字セッ ト位置順序符号を i、 出現頻度の高い文字セッ トの文字セッ ト 位 gJlU 符号を jとするとき、 (文字セッ ト位置順序符号 iの文字セッ トの文字 セット位置情報) - (文字セット位置順序符号 jの文字セッ 卜の文字セット位置 情報) = ( i - j ) x (最^ 性数) に合致する文字セット位置情報の組み合わ せを抽出することが望ましい。 また、 検索対象文字列が記号を含む欧文字列の場合は、 少なくとも 3文字単位 の文字セッ トとし記号を含む欧文字のみの文字セッ ト種グループで構成される検 索フアイルを用いることが望ましい。
[0022] また、 検索対象文字列が漢字を含む日本語文字列の場合は、 少なくとも 2文字 の文字セット種グループで構成される検索ファィルを用いることが望ましい。 本発明の第三の特徴は、 文字種別に文字位置情報が格納される検索ファィルを 作成するもので、 検索対象となる文字列を検索を行う単位である検索単位に分け この検索単位ごとに昇順の符号を付与する検索単位識別符号付与手段と、 この分 けられた検索単位に対してその検索単位の論理的な区分を示す属性符号を付与す る属性符号付与手段と、 検索対象となる文字列を各文字ごとに検索単位の中での 位置を示す文字位置順序情報を付与する文字位置順序符号付与手段と、 上記検索 単位識別符号と文字位置順序符号と属性符号とからなる文字位置情報を作成して、 この文字位置情報を文字種別の領域に格納して検索ファィルを作成する手段とを 備えたことを特徴とする。
[0023] この文字位置情報は、 '
[0024] { (検索単位識別符号 x n ) +文字位置順序符号 } x a +属性符号
[0025] n :最大検索単位文字数
[0026] a :最大属性数。
[0027] なる数字コードとして与えられることが望ましい。
[0028] 本発明の第四の特徴は、 第三の特徴で作成された検索ファィルを用いて検索 処理を行うものであり、 第三の特徴で作成された検索ファイルを備え、 検索入力 文字列の構成文字と同じ文字の文字位置情報を上記検索ファィルから取り出す手 段と、 この取り出した各文字の文字位置情報間で、 検索単位識別符号が共通で文 字位置順序符号が検索入力の文字列と等 U、順序であり、 かつその属性符号が検 索入力と等し!/ヽ文字位置情報の組み合わせを抽出する手段と、 この抽出された文 字位置情報の組み合わせに基づいて文字列が属する検索単位および文字位置を検 索結果として出力する手段とを備えたことを特徴とする。 文字位置情報の組み合わせ抽出は検索入力文字の全文出現頻度の低 、文字から J頃に行うこと力望ましい。
[0029] また、 検索入力の文字列と同じ文字列を構成できる文字位置情報の組み合わせ の描出は、 検索入力文字列の全文における出現頻度の低 、文字の文字位置順序符 号を i、 出現頻度の高い文字位置順序符号を jとするとき、 (文字位置順序符号 ΐの文字の文字位置情報) 一 (文字位置順序符号 iの文字の文字位置情報) = ( i - j ) χ (最大属性数) に合致する文字位置情報の組み合わせを抽出すること が望ましい。
[0030] 本発明の第五の特徵は、 マルチキーワード検索に係るものであり、 検索対象と なるレコードごとに昇順の符号を付与するレコ一ド識別符号付与手段と、 このレ コ一ドが有する各キ一ワードにキーワードの論理的な区分を示す属性符号を付与 するキーワード属性符号付与手段と、 このキーヮードから 1文字ずつ取り出し、 その文字と次に続く合計 r文字で文字セットを作成し、 キーワードにおける文字 セッ卜の先頭文字位置を示す文字セット位置順序符号を付与する文字セット位置 順序符号付与手段と、 上記レコード識別符号とキーワード属性符号と文字セッ ト 位置順序符号とからなる文字セッ ト位置情報を作成して、 この文字セッ ト位置情 報を文字セット種ごとの令頁域に格納して検索ファィルを作成する手段とを備えた ことを特徵とする。
[0031] なお、文字セッ ト位置情報は、 レコードが有する各キーワードをキーワード属 性符号に対応するキーワード属性領域に配列して作成するキーワード列について、 各キーワードの全ての文字セットをレコード識別符号とキーワード属性符号と文 字セッ ト位置順序符号とで整数からなるコ一ドに変換して作成するもので、 レコード識 g|I x n + (P a— 1 ) +文字セット位置順序符号
[0032] n :キーワード列文字数
[0033] P , :キ一ヮ一ド属性: ^号 aのキーワード属性領域のキーヮード列における先 なる数字コードとして与えられることが望まし また本発明の第六の特徴は、 第五の特徴で作成された検索ファィルの検索処理 に係るもので、 第五の特徴で作成された検索ファィルを備え、 検索入力文字列の 構成文字を先頭文字から Γ文字単位の文字セットに分解して検索入力文字セッ ト 列を作成し、 この文字セッ 卜と同じ文字セッ 卜の文字セッ ト位置情報を上記検索 ファイルから取り出す手段と、 この取り出した各文字セッ トの文字セッ ト位置情 報間で、 レコード識別符号とキーワード属性符号が共通で文字セッ ト位置順序符 号の差が検索入力文字列の該当文字セッ トの先頭文字位置差に等しく、 かつその キーワード属性符号が検索入力と等しい文字セッ ト位置情報の組み合わせを抽出 する手段と、 この抽出された文字セッ ト位置情報の組み合わせに基づいて検索入 力文字列に対応するレコード識別符号を検索結果として出力する手段とを備えた ことを特徵とする。
[0034] なお、 検索入力文字セッ ト列と同じ文字セット列を構成できる文字セッ ト位置 情報の抽出は、 検索入力文字セッ ト列の全キーワードにおける出現頻度の低い文 字セッ トの文字セッ ト位置順序符号を i、 出現頻度の高い文字セッ トの文字セッ ト位置順序符号を jとするとき、 (文字セッ ト位置順序符号 iの文字セッ トの文 字セット位置情報) 一 (文字セッ ト位置順序符号; iの文字セッ トの文字セッ ト位 置情報) = i一 jに合致する文字セット位置情報の組み合わせを抽出することが 望ましい。
[0035] なお、 キーワードが記号を含む欧文文字列の場合は、 少なくとも 3文字記号単 位の文字セッ トとし、 記号を含む欧文字のみの文字セッ ト種グループで構成され る検索ファィルを用いることが望ましい。
[0036] また、 キーワードが漢字を舍む場合は、 漢字については 1文字単位の文字位置 情報とし、 仮名文字については 2文字単位の文字セッ ト位置情報とする検索ファ ィルを用いることができる。
[0037] 本発明の第七の特徴は、 マルチキーワード検索で 1文字単位の文字位置情報を 用いるもので、 検索対象となるレコ一ドごとに昇順の符号を付与するレコ一ド識 別符号付与手段と、 このレコードが有する各キーワードにキーワードの論理的な 区分を示す属性符号を付与するキーヮード属性符号付与手段と、 このキーワード を各文字ごとに分解し各文字にキーヮ一ド中での位置を示す文字位置順序符号を 付与する文字位置順序符号付与手段と、 上記レコ一ド識別手段とキーヮード属性 符号と文字位置順序符号とからなる文字位置情報を作成して、 この文字位置情報 を文字種ごとの領域に格納して検索ファィルを作成する手段とを備えることを特 徴とする。
[0038] なお、 文字位置情報は、 レコ一ドが有する各キーヮードをキーヮード属性符号 に対応するキーヮ一ド属性領域に配列して作成するキーヮード列について、 各キ 一ワードの全ての文字をレコード識別符号とキーワード属性符号と文字位置順序 とで整数からなるコ一ドに変換して作成するもので、
[0039] レコード識別符号 x n + (Ρ α - 1 ) 十文字位置順序符号
[0040] n :キーワード列文字数
[0041] P a :キーヮード属性符号 aのキーヮード属性領域のキーヮード列における先 なる数字コードとして与えられることが望ましい。
[0042] 本発明の第八の特徴は、 第七の特徴で作成された検索ファィルの検索処理に係 るもので、第七の特徵で作成された検索ファイルを備え、検索入力文字列の構成 文字と同じ文字の文字位置情報を上記検索ファィルから取り出す手段と、 この取 り出した各文字の文字位置情報間で、 レコード識別符号とキーヮ一ド属性符号が 共通で文字位置順序符号が検索入力の文字列と等しい順序であり、 かつそのキ一 ヮ一ド属性符号が検索入力と等しい文字位置情報の組み合わせを抽出する手段と、 この抽出された文字位置情報の組み合わせに基づ、て検索入力文字列に対応する レコード識別符号を検索結果として出力する手段とを備えたことを特徵とする。 なお、検索入力文字列と同じ文字列を構成できる文字位置情報の組み合わせの 抽出は、 検索入力文字列の全キーワードにおける出現頻度の低い文字の文字位置 順序符号を i、 出現頻度の高い文字の文字位置順序符号を jとするとき、 (文字 位圜,序符号 Ϊの文字の文字位置情報) (文字位置順序符号 jの文字の文字位 置情報) = i— jに合致する文字位置情報の組み合わせを抽出することが望まし い。
[0043] 本発明の原理について説明する。
[0044] 文書中に同じ文字列が出現する頻度は低い。 例えば広辞苑 (岩波書店発行の国 語辞典) の見出し語の説明文は約 900万文字あるが、 その中で仮名文字の出現頻 度を調べると平均約 53200回と高い。 しかし、 仮名 2文字の文字列の出現頗度を 調べると平均出現頻度 472 回と低くなる。 このため、 仮名 2文字を文字セッ 卜と すると、 検索入力が n文字の場合、 全文から抽出する照合対象は平均すれば (II / 2 ) X 72個の文字セッ ト位置情報となる。 また、 漢字は文字種が仮名文字よ り多いので、 漢字 2文字の文字列の出現頻度は仮名文字よりさらに低くなり、 全 文から抽出する照合対象も仮名文字より少なくなる。
[0045] さらに漢字 1文字だけについてみても、 上述の広辞苑の見出し語の説明文につ いては J I S第 1水準の漢字の出現頻度は平均 1155回である。 このため、 J I S 第 1水準 2965種の漢字については、 検索入力が n文字の場合、 広辞苑の見出し語 の説明文書から抽出する照合対象は平均すれば n X 1155文字となる。
[0046] 一般的に検索入力は数十文字以下であるため、 出現頻度の高 (/、文字を含む文字 列であつても、 全部の文字を逐次照合するものに比べるとその照合回数は極めて 少なくなる。
[0047] 例えば、 「通信」 という 2つの文字列を使用する用語は多々あるとしても 「通 信 · ·」 という文字列は 「通信回線」 、 「通信装置」 のように 「通信」 の文字以 降で同一の文字が発生する頻度が低くなる。 この結果、 「通信」 に続く 「回線」 や 「装置」 の文字列を照合すると、 検索対象が急激に絞り込まれていく。 このよ うにして、 検索入力文字セット列の構成文字セッ 卜で全文または登録キーワード との照合を進めていくと、 それまでに得られた検索対象候補の文字セット列の中 から、 検索入力文字セッ ト列と異なる文字セッ ト列が削除され、 照合する構成文 字セッ トごとに検索対象が絞り込まれていく。 特に、 検索入力の中の全文出現頗 度あるいは全キーワードにおける出現頻度の低い文字セッ トから順に照合を行う と一層絞り込まれて照合一致を取る回数を低減できる。
[0048] したか、つて、 検索対象となる文字列 (全文または登録キーワード) を構成する 各文字セットが文字列中のどの位置にあるかをも示す文字セット位置情報を文字 セット種ごとに格納した検索ファイルを作成し、 この検索ファイルに対して検索 入力文字セット列との照合一致を行うことにより文字列検索における照合一致処 理回数を大幅に低減することができる。
[0049] さらに漢字のように出現頻度の低い文字については文字セットとせずに、 1文 字単位で文字種ごとの領域に格納して検索ファイルを作成し、 この検索ファイル に対して検索入力文字列との照^""致を行う場合も同じく照合一致処理回数を大 幅に削減できる。
[0050] この検索ファィルの作成は次のように行う。 なおこの説明は全文検索処理用の 文字セッ卜の例で説明する。
[0051] まず検索对象となる文字列を検索単位に分ける。 検索对象文字列が例えば書籍 や論文の場合、 目次、 序文、 章または節等のタイ トル、 本文、 図または表等のタ ィ トル、 文献という順序で構成されており、 それぞれの構成部分が論理的に 区分されているため、 検索単位として構成できる。 そこで書籍または論文を論理 的に検索単位に分け、 それぞれの検索単位ごとに出現順序に従って昇順に識別符 号を付与する。 このとき:^については複数の検索単位に分割し、 それぞれ他の 検索単位とともに一連の識別符号を付与することもできる。 また、 この検索単位 について、 目次、序文、 タイ トル、 本文のようにその検索単位の論理的な種別が 区分されるので、 その論理的な種-別を属 ί生として、 その属性を示す属性符号を付 与する。
[0052] そして、 文字列を先頭文字から 1文字ずつ取り出し、 その文字と次に続く合計 r文字で文字セットを作成し、 各文字セッ トに検索単位識別符号と各文字セット の先Ι¾字位置を示 字セット位置順序符号と検索単位の属性符号とからなる 文字セッ ト位置情報を^^し、 文字セット種ごとに構成された領域に格納し、 検 索対象文字列を各文字セット種別に格納する検索ファィルを作成する。 この検索ファイルは、 文字セッ トの種別ごとに文字セッ ト位置情報が格納され た形のファイル構造となる。
[0053] 検索処理は、 検索入力を先頭文字から r文字単位の文字セッ 卜に分解して検索 入力文字セッ ト列を構成し、 分解した文字セッ トと同じ文字セッ 卜の文字セッ ト 位置情報を検索ファィルから取り出して、 検索単位識別符号が共通しており文字 セッ ト位置順序符号の差が該当する検索入力文字列の文字セッ 卜の先頭文字位置 差に等しくかつ属性符号が等しい文字セッ ト位置情報の組み合わせを照合して取 り出す。 なお検索入力文字列を先頭文字から r文字単位の文字セッ トに分解した とき、 最後の文字セッ トが (r— 1 ) 以下になり、 r文字単位の文字セットを作 成できないことがある。 このときには、 最後の文字セッ トの直前の文字セッ 卜の 後部から不足文字数分の文字を取り出し、 最後の文字セッ トの前部に連結して r 文字単位の文字セッ トを作成する。
[0054] この照合処理は、 検索入力と検索ファイルとの文字セッ ト列の連続性の一致と 属性の一致とをみるもので、 検索ファイル中の文字セッ ト位置情報から検索単位 識別符号が共通していて文字セット位置順序符号の差が該当する検索入力文字列 の文字セッ トの先頭文字位置差に等しくかつ属性符号が検索入力と同じ文字セッ トの組み合わせを取り出すことにより行う。
[0055] これにより、 全検索ファィルの照合が不要になり、 検索ファィルにある検索入 力と同じ文字セッ トの文字セット位置情報だけの照合一致を行えばよいので、 照 合回数は逐次照合に比べるときわめて低減することができる。 また、 一般的に同 じ文字列の出現頻度が低いので、 Γ文字の文字セッ トを照合するたびに検索対象 が絞り込まれるので、 照合回数は低減していく。
[0056] さらに、 検索ファイルから取り出した文字セット位置情報を照合するとき、 検 索入力の中の全文出現頻度の低い文字セッ トから順に行うと検索対象が一層絞り 込まれ、 照合一致をとる回数がさらに低減できる。
[0057] このようにして検索入力に合致する文字列を見出したときはその検索単位識別 符号から抽出すべき検索単位と文字セッ ト構成各文字の検索単位における先頭文 字からの位置を示す文字位置を抽出して、 検索者に検索結果として出力する。 全文検索において、 文字種ごとの検索ファイルを用いるときは、 全文の構成各 文字を文字種別の領域に格納して検索ファィルを作成する。 この検索ファィルに 対して検索入力文字列を各文字ごとに分解し、 各文字の文字位置情報を検索ファ ィルから取り出して、 検索単位識別符号が共通で検索入力文字列と等しい順序で かつ属性符号が検索入力と同じ文字位置情報の組み合わせを取り出して、 検索単 位と文字位置を検索結果として出力する。
[0058] さらにマルチキーワード検索の場合においては、 キーワードを有するレコード について登録順序に従って昇順のレコード識別符号を付与し、 各キーワードにつ いては、 そのキーワードの論理的な種別を属性としてその属性を示すキーワード 属性符号、 およびキーワードにおける文字位置順序符号または文字セット位置順 序符号を与えて、 この 3つの符号から文字位置情報または文字セット位置情報を 作成して、 文字種ごと、 または文字セットごとの領域に格納して検索ファイルを 作成する。
[0059] マルチキーヮード検索処理では、 検索入力文字列と検索入力文字列属性との対 が 1個 Hi入力される。 各検索入力文字列について検索入力文字列を 1文字、 あ るいは文字セットに分解し、検索ファイル中から検索入力を構成する文字と同じ 文字位置情報または検索入力を構成する文字セットと同じ文字セット位置情報を 取り出して、 レコード識別符号が共通で文字位置順序符号または文字セット位置 順序符号とキーヮード属性符号が検索入力と等しい文字位置情報または文字セッ ト位置情報の組み合わせを照合して取り出す。 取り出した文字位置情報または文 字セット位置情報の組み合わせからレコード識別番号を検索結果として取り出す。
[0060] 〔図面の簡単な説明〕
[0061] 図 1は本発明実施例に使用する情報検索処理装置の構成例。
[0062] 図 2は第一実施例の検索ファイル例。
[0063] 図 3は第一^ M例の各文字セット群の第 2、 第 3文字組み合わせ一覧。
[0064] 図 4は第一 例文字セットグループアドレス表。 図 5は第一実施例の検索ファィルの登録例。
[0065] 図 6は第一実施例の検索ファィル作成処理手順を説明するフローチャート。 図 Ίは第一実施例の検索処理手順を説明するフローチャート。
[0066] 図 8は第二実施例の検索ファィル。
[0067] 図 9は第二実施例の文字セッ ト群一覧。
[0068] 図 10は第二実施例の文字セッ トグループアドレス表。
[0069] 図 11は第二実施例の検索ファィルの登録例。
[0070] 図 12は第三実施例の文字欄ァドレス表。
[0071] 図 13は第三実施例の検索ファィルの登録例。
[0072] 図 14 a、 bは第三実施例の検索ファィル作成処理手順を説明するフローチヤ一 ト。
[0073] 図 15は第三実施例の検索処理手順を説明するフローチャート。
[0074] 図 16は第四実施例のキーヮード列の例。
[0075] 図 17は第四実施例の文字セット位置情報作成例。
[0076] 図 18は第四実施例の検索ファィルの登録例。
[0077] 図 19 a、 bは第四実施例の検索ファィル作成手順を説明するフローチャート。 図 20 a、 bは第四実施例の検索処理手順を説明するフローチャート。
[0078] 図 21は第五実施例のキーワード列の例。
[0079] 図 22は第五実施例の文字セッ ト位置情報作成例。
[0080] 図 23は第五実施例の検索ファィルの登録例。
[0081] 図 24は第六実施例の文字位置情報作成例。
[0082] 図 25は第六実施例の検索ファィルの登録例。
[0083] 図 26 a、 は第六実施例の検索ファィル作成手順を説明するフローチャート。 図 27 a、 bは第六実施例の検索処理手順を説明するフローチャート。
[0084] 〔発明を実施するための最良の形態〕
[0085] 図 1は本発明実施例における情報検索処理装置の構成を示すものである。 本実施例の情報検索処理装置は、 各種演算処理あるいは判断処理を行う C P U 1と、 検索処理、 検索ファイル作成等のプログラム、 作成されたあるいは検索処 理を行うための検索ファイル、 検索入力等を記憶するメモリ 2、 キーボード 4、 ディスプレイ 5を接続する入出力部 3、 各種情報が記憶される外部記憶装置 7を 接続する外部記憶装置制御部 6、 C P U K メモリ 2、 入出力部 3、 外部記憶装 置制御部 6を接続する共通バス 8とを備える。
[0086] 次に第一実施例での情報検索処理を説明する。 この第一実施例は、 特に欧文文 字文書を全文検索対象とするときの実施例である。
[0087] 本実施例での情報検索処理は、検索処理に供するための文字列について文字列 の先頭文字から 1文字ずつ取り出し、 その文字と次に続く文字の合計 3文字で文 字セットを作成し、 これらの文字セット種ごとにグループ化した文字セットグル ープで構成される検索ファィルを作成する検索ファィル作成処理と、 検索ファィ ルとの照合一致を行って検索入力に合致する文字列を抽出する検索処理との二つ に分けられる。
[0088] まず、 検索ファイル作成処理について説明する。
[0089] この検索ファイル作成処理は、 大まかに分けると、 ①検索ファイル領域確保、 ②各文字セットへの文字セット位置情報の付 ·与、 ③文字セット種別ごとにグルー プ化した文字セット位置情報の検索ファィルへの格納の 3つに分けることができ る。 この各処理についてそれぞれ説明する。
[0090] ① 検索ファイル領域確保
[0091] 検索フ了ィルは、 図 2に示すように、 A S C I Iコード表に記載されている A S C I Iコード 「2 0」〜「7 F」 までの文字順に配列された文字セット群で構 成される。 各文字セット群は図 2に示す各文字セット君の名称を表す文字を先頭 文字とする 3文字で構成される。 各文字セット群の 2文字目と 3文字目は、 図 3 に示すように A S C I Iコード表に記載されている文字で構成される。 例えば A 文字セット群は、 「AA 」、 「AA!」、 · · · 「AA} 」、 「AA〜J の文 字セットで構成される。 そこで全文の先頭文字から 1文字ずつ取り出し、 その文 字と次に続く文字の合計 3文字で文字セッ トを作成し、 これらの文字セット種ご とに出現頻度を計数する。 これにより、 検索ファイルを構成する各文字セッ ト種 グループに登録される文字セッ ト位置情報の数がわかるので、 全文字セッ ト種グ ループで構成される検索ファイルの領域を確保できる。 また同時に、 各文字セッ ト種グループに登録される文字セッ ト位置情報の数から、 検索ファイル内に連続 して格納される文字セッ ト種グループの先頭審地もわかる。 この文字セッ ト種グ ループの先頭審地を図 2と図 3で示す各文字セッ トの記載順に配列したのが図 4 に示す文字セッ トグル一プアドレス表である。
[0092] ② 各文字セッ トへの文字セッ ト位置情報の付与
[0093] ここで述べる文字セッ ト位置情報は、 文字セッ 卜が属する検索単位が現れる順 番を示す検索単位番号と、 検索単位におけるその文字セットの出現する位置をそ の文字セッ 卜の先頭文字の位置で示す文字セッ ト位置蕃号と、 検索単位の論理的 な種別を示す属性審号とで作成される。
[0094] まず検索単位とその属性について説明する。 例えば一般的な書籍は、 目次、 序 文、 章または節のタイ トル、 本文、 図または表のタイ トル、 参考文献などの部分 で構成されており、 ほぽこの順序に従つて現れる。 この書籍の内容^検索すると き、 検索対象としてこの部分を検索単位とし、 その検索単位を検索出力とするこ とが便利であるし、 また検索目的に合致することが多い。 すなわち、 検索目的に よってタイ トルのみや本文のみを検索対象として指定することが実際の検索では 多いからである。
[0095] したがって、 一つの書籍を全文検索対象として検索する場合に、 その書籍を構 成する論理的な部分に分けて検索結果を出力することが好ましい。 この検索単位 は、 検索対象の文字列の論理的な分類を示すものであるため、 この検索単位に論 理的区分に従って属性審号を付与する。 例えば、 属性蕃号として、 目次に 「1」、 序文に 「2」、 章または節のタイ トルに 「3」 、 図または表のタイ トルに 「4」、 本文に 「5」、 参考文献に 「6」 を付与する。
[0096] そしてこの検索単位が書籍に出現する順序に 1から昇順に蕃号を付与する。 こ れを検索単位番号とする。 なおこの際に本文が長文である場合には適当な区分に 分けて本文を複数の検索単位に分け、 検索単位ごとに出現する順位で検索単位審 号を付与することもできる。
[0097] 次に検索単位ごとに、 検索単位の先頭から 1文字ずつ取り出し、 その文字と次 に続く文字の合計 3文字で文字セットを作成し、 作成順に 1、 2、 3 · · ·と昇 順に審号を付与して文字セット位置審号とする。 検索単位の構成文字の最後の文 字には を示す特殊文字 EM (エンドマーク) を 2文字付加し、 この EM文字 と逸链させて文字セッ トとして、文字セット位置番号を付与する。 なお、 EM文 字は、 ASC I Iコード表の 「DELj の ASC I Iコード 「7 Fj とした。 そして、 このように与えられた検索単位番号、 文字セッ ト位置 Φ号、 属性蕃号 から検索単位を構成する文字セットを整数からなるコードに変換して文字セット 位置情報を作成する。
[0098] この文字セット位置情報は、 最大検索単位文字数を n、 最大属性数を aとする とき、
[0099] 文字セッ ト位置情報コード- (検索単位審号 xn+文字セッ ト位置番号 } xa
[0100] +属性番号 …ひ) 式で与えられる数字コードである。
[0101] 例えば、 検索単位の最大文字数 n =10000、 最大属性数 a=10とし、 8審目の 検索単位である:^ (属性蕃号 =5) の先頭から第 121〜130蕃目の文字位置に 「d 0 c ume n t J という文字列があった場合、 この文字列の中の「d o cumen t」 ¾「do c」 、 「o c u」 、 「c um」 、 「ume」 、 「men」 「en t」 、 「n t 」 「t 」 の文字セッ トに分 g军され、 それぞれ「801215」 「801225」、 「801235」、 「801245」、 「801255」、 「801265」、 「801275」 、 「801285」 の文字セッ ト位置情報が与えられる。
[0102] そしてこのように文字セット位置情報を 4バイ トのコードで構成すれば、 最大 10000文字数の検索単位を 232X (nxa) 43万個取り扱うことが可能であ 。
[0103] ③ 文字セッ ト位置情報の検索ファィルへの登録 次にこの各文字セッ トごとに付与された文:^セッ ト位置情報を検索ファイルに 登録する。
[0104] 上述のように文字セット種別グループは、 図 2と図 3に記載された順に検索フ アイルに格納される。 そして各文字セッ ト種別グループに文字セッ ト位置情報を 登録する。 この文字セッ ト位置情報の登録は、 該当する文字セッ ト種グループの 未格納領域の先頭にそれぞれ文字セッ ト位置情報を格納することによつて行われ る。 このため、 検索単位順に登録するとすれば文字セッ ト種グループ内には文字 セット位置情報が数値順の昇順に登録されることになる。
[0105] 上述の 「d 0 c u m e t」 の文字セッ ト位置情報を検索ファィルに登録した例 を図 5に示す。 このとき、 各グループ内の文字セッ ト位置情報は昇順に格納され る。 このファイル容量は、 文字セッ ト位置情報が 4バイ 卜であると、 下記に示す 容量になる。
[0106] 4バイ ト x (検索単位文字数) i
[0107] i = 0 なお、 文字セット位置情報の追加登録は、 追加文書の各文字セッ トに該当する グループの未格納領域の先頭に新規文字セッ ト位置情報を追加することで行う。 また、 削除は削除文書の各文字セッ トに該当するグループ内の該当文字セッ ト位 置情報を特殊記号 (ここでは A S C I Iコードの 「 0 0 0 0」 ) に変更すること によって行う。 これにより追加登録と削除を短時間に行うことができる。
[0108] なお上述のようにこの検索ファィルの各文字セット種グループごとに格納され た文字セッ ト位置情報は、 図 4の文字セッ トグル一プアドレス表の各文字セット グループ先頭蕃地をディレクトリとして取り出すことができる。
[0109] 以上の検索ファィルの作成処理の流れを図 6に示す。
[0110] すなわち、 各文字セットの出現度数を計数して文字セッ トグル一プアドレス表 を作成し (S ll、 12) 、 検索ファイルの領域を確保する (S 13) 。 次に検索単位 登録順位カウンタを k = lに初期設定して、 検索単位審号を 「1」 に、 最大検索 単位文字数を 「n =10000 」 に、 最大属性数を a =10に設定する (S 14) 。 そし て最初の検索単位を取り出す (S 15) 。 ここまでが登録の前処理である。 ここか ら検索単位ごとの登録処理となり、 まず、 文字セット位置審号を P = 1に、 登録 する検索単位の構成文字数 m、 登録する検索単位の属性番号 a i を設定する (S 16) 。 次に、検索単位の先頭文字から順に、 文字セッ ト位置審号 Pに該当する文 字セット位置情報を
[0111] D= (k X 100000+ p ) x lO+ i ··· ( 2 )
[0112] の式で作成する (S 17) 。 文字セット位置審号 pにある文字セッ卜と同じ文字セ ット種グループが格納されている検索ファイルの文字セットグループの先頭番地 を示 «字セットグループ先頭蕃地を文字セットグル一プアドレス表から取り出 して (S 18) 、 文字セットグループ先頭審地が示す検索ファイルの文字セットグ ループの未格納領域の先頭行に文字セット位置情報を格納する (S 19) 。 そして、 P = P + 1、 m=m- 1とし、 検索単位内の全ての文字セットを処理したところ で、 次の検索単位の処理に移る (S 23、 24) 。
[0113] 次にこのようにして作成された検索ファィルを用いる検索処理について説明す る。
[0114] 本実施例では、 検索ファイルから取り出した文字セット位置情報をもとに検索 入力文字セット列と同じ文字セット列を文字列照合して全文検索を行う例で説明 する。 まず、 その検索処理は大まかに分けると以下の構成からなっている。
[0115] ①検索入力文字列を先頭文字から 3文字単位の文字セッ卜に分解し、 検索入力 文字セット列を作成する。
[0116] ②検索入力文字セッ ト列の各文字セッ卜に該当する文字セッ トグル一プアドレ ス表内の文字セットグループ先頭蕃地を算出する。
[0117] ③検索入力文字セッ ト列を全文出現頻度の少ない文字セットから順に並べ変え 。
[0118] ④並べ変えた文字セット列の先頭から順に該当する文字セット種グループを検 索フアイルから取り出してそこに格納されている文字セット位置情報から検索入 力文字セット列を構成できる文字セット位置情報の組み合わせを取り出す。 ⑤抽出した文字セッ ト位置情報から検索入力と同じ属性を有する文字セッ ト位 置情報を取り出し照合一致とする。
[0119] ⑥照合一致した文字セッ ト位置情報から検索単位蕃号と文字セッ ト構成各文字 の検索単位における先頭文字からの位置を示す文字位置銎号を検索結果として出 力する。
[0120] 次に具体的にそれぞれの処理を説明する。
[0121] ① 検索入力文字セッ ト列の作成
[0122] 検索ファイルに格納されている文字セッ 卜と照合可能なように、 検索入力文字 列を先頭文字から 3文字単位の文字セッ 卜に分解し、 検索入力文字セット列とす なお、 検索入力文字列を先頭文字から 3文字単位の文字セッ 卜に分解したとき、 最後の文字セッ トが 3文字未満になり 3文字単位の文字セッ トを作成できないこ とがある。 このときには、 最後の文字セッ トの直前の文字セッ 卜の後部から、 不 足文字数分の文字を取り出し、 最後の文字セッ 卜の前部に連結して 3文字単位の 文字セッ トを作成する。
[0123] ② 各検索入力文字セッ 卜に該当する文字セッ トグル一プアドレス表内の文字 セッ トグル一プ先頭審地の算出
[0124] 検索ファィルの作成時と同様に、 各検索入力文字セッ トの図 2と図 3で示され る文字セッ ト順位を算出し、 これを文字セッ トグル一プアドレス表における検索 入力文字セッ 卜のアドレスポインタとする。
[0125] ③ 出現頻度順の並べ変え
[0126] そして、 検索ファィルの各文字セッ ト種グループの先頭番地を示す文字セッ ト グループアドレス表内の文字セットグループ先頭番地を参照して、 各検索入力文 字セッ トの全文出現頻度を調べ、 検索入力文字セッ ト列を全文出現頻度の低いも のから順に並べ変える。 上述のように、 文字セッ トグループアドレス表内の先頭 番地は、 検索ファイルに格納されている各文字セッ ト種グループの先頭審地を示 しており、 次に続く文字セットグループ先頭蕃地との差をとれば、 各文字セッ ト 種グループに格納されている文字セッ ト位置情報の数から、 全文中に出現する文 字セット種別頻度がわかる。
[0127] これは全文出現頻度の低い文字セッ 卜から照合一致を行うことにより、 検索フ アイルに格納された各文字セッ卜の文字セッ ト位置情報との照合回数をきわめて 低減できるためである。 すなわち文字セット位置情報を照合して各文字セッ 卜の 連続性を調べる場合に二つの文字セット種グループ内の文字セット位置情報中の 検索単位番号と文字セット位置審号と属性番号とを照合するため、 その二つの文 字セット種グループ内に格納されている文字セット位置情報の数が少なければそ れだけ照合回数を少なくすることができる。 したがって、 文字セット位置情報の 照合を行うときに、 全文出現頻度の低い文字セットから照合を行って照合回数を 低減させる。 特に検索入力文字が多くなるほど出現頻度の低い文字セッ トが含ま れる割合が高まるため低減効果は大きい。
[0128] ④ 文字セット列の照合
[0129] 全文出現 の低い文字セットから文字セットグループアドレス表を参照して それぞれの文字セット種グループに格納されている文字セット位置情報を取り出 す。 そして取り出した文字セット位置情報をもとに、 全文出現頗度の低い文字セ ット種グループから、 各文字セット種グループ間で検索単位が等しくかつ文字セ ッ ト位置番号の差が検索入力文字列の該当する文字セットの先頭文字位置差に等 しい文字セッ ト位置情報の組み合わせを抽出する。 この文字セット位置情報差の 照合は、 a =最^性数とすると、
[0130] 検索入力文字セット列の全文出現頻度の低い文字セッ 卜の文字セット位置蕃号 を ί、 全文出現離の高い文字セットの文字セット位置審号を jとするとき、
[0131] { (文字セッ ト位置審号 iの文字セッ トの文字セッ ト位置情報) 一 (文字セッ ト 位置番号 jの文字セッ トの文字セット位置 ί青報) } = ( i - j ) x a … ( 3 ) の式で照合すればよい。
[0132] この文字セット種グループ間での文字セッ ト位置情報差の照合処理は、 全文出 現頻度の低い文字セット種グループの文字セッ ト位置情報とそれより全文出現頻 度の高い文字セッ ト種グループの文字セッ ト位置情報との差を取って文字セッ ト の連続を照合する。
[0133] 検索入力文字列における任意の文字セッ トを ABCと DEFとすると、 該当す る文字セッ ト位置情報を抽出するには、 Aと Dの文字位置差が Lであるとし、 グ ループ ABCの文字セッ ト位置情報を A x 、 グループ DEFの文字セッ ト位置情 報を Dy としたとき
[0134] A« +L · a >Dy なら Dy を削除
[0135] A, +L · a<Dy なら Ακ を削除
[0136] Ακ +L · a=Oy なら Ax、 Dy を合致として共に削除
[0137] a =最大属性数
[0138] というように不連続な文字セット位置情報を照合対象から削除していくことによ りその照合回数を削減させる。
[0139] 例えばグループ ABCの文字セッ ト位置情報が
[0140] 100052、 200113、 300105、 500205、 600083、 700054
[0141] グループ D E Fの文字セット位置情報が
[0142] 100022、 300015、 300135、 棚 35、 500025
[0143] 文字位置差 L = 3、 最大属性数 a =10
[0144] であった場合、 この二つのグループ間の照合回数は全体で 7回だけですみ、 グル ープ内の全ての文字セット位置情報を照合する必要はない。
[0145] ⑤ 属性番号の照合
[0146] 文字セッ ト列照合から得られた文字セッ ト位置情報の中から、 検索入力と同じ 属性審号の文字セッ ト位置情報を取り出すことにより、 検索入力で指定した属性 に一致する文字セッ ト位置情報を抽出できる。
[0147] ⑥ 検索結果の抽出
[0148] 取り出した文字セッ ト位置情報から検索単位審号と文字セッ 卜構成各文字の検 索単位における先頭文字からの位置を示す文字位置審号を検索結果として抽出す る。 なお、検索入力が複数ある場合には、 2審目以降の検索入力に対しては、 検索 入力の最初の文字セッ トに該当する文字セッ 卜種グループからそれまでに得られ た検索単位審号を有する文字セッ卜位置情報を取り出した後、 検索入力の次の文 字セット以降の処理を行うようにする。 これは第 1番目の検索入力で得られた検 索結果と同じ検索単位に含まれる文字セッ トを第 2番目以降の検索入力から抽出 することを百的とする。
[0149] 以上の②〜⑥の動作を具体例を挙げて説明する。 検索対象として本文が指定さ れ、 検索入力文字列としては「d 0 c ume n」 が指定されたとする。 この場合 本文の属性審号は 「5」 とする。 なお、 図 5の検索ファイルを対象として説明す 検索入力が「d 0 c ume njであるから、 検索入力文字セッ トは 「d o c」 と 「umej と 「n」 とになる。 しかし 「n」 は 1文字なので 「n」 の前にある 2文字と 結して「men」 とする。 全文出現頗度が「ume」 く 「do c」 < 「men」 の順であり、 照合をこの順序に行うとすると、 まず検索ファイル中の 「ひ me_lの文字セッ トグループ攔から取り出した文字セッ ト位置 報と 「d o c j の文字セッ トグル一プ欄から取り出した文字セッ ト位置情報との間で、 検索 入力 「do cumen」 における 「u」 と 「d」 との文字位置が各々 「4」 と 「1」であるから、 これらの差に最大属性数 =10を乗算した 「30」 になる文字セ ット位置情報を抽出して、 図 5の検索ファィルの 「 u m e j 内の文字セット位置 情報の 「801245」 と 「文書」 内の 「801215」 とを連続性ある文字セッ ト位置情報 の組み合わせとして抽出することができる。 次に、 この照合結果と 「menj の 文字セッ トグループ欄から取り出した文字セッ ト位置情報との間で、 検索入力「 do c ume nj における 「u」 と 「m」 との文字位置が各々 「4」 と 「5」 で あるから、 これらの差に S 属性数 =10を乗算した 「一 10」 になる文字セット位 置情報を抽出して、 図 5の検索ファイルの 「ume」 内の文字セッ ト位置情報の 「801245」 と 「menj 内の 「801255」 とを連続性ある文字セッ ト位置情報の組 み合わせとして抽出することができる。 さらに、 検索条件は 「本文」 であるから、 これまでの文字列照合で残った文字 セッ ト位置情報の中から、 属性番号が「5」 の文字セッ ト位置情報として、 「80 1215」 と 「801245」 と 「801255」 とを抽出できる。
[0150] したがって、 この文字列が属する検索単位番号 「8」 の検索単位と文字位置番 号 「121〜127 」 を検索結果として出力する。
[0151] この検索処理動作を図 7にフローチャートとして示す。
[0152] すなわち、 検索入力を取り出し、 検索入力文字列を先頭文字から 3文字単位の 文字セッ トに分割して検索入力文字セッ ト列を作成し、 照合回数 nをその文字セ ッ ト数ー1、 属性番号 a i を設定し、 各文字セッ 卜の出現頻度を文字セッ トグル 一プアドレス表を参照して調べ出現頻度の低いものから順に並び変える (S 41〜 S 44) 。 そして並べ変えた文字セットに該当する文字セット種グループに格納さ れている文字セッ ト位置情報を検索ファイルから取り出す (S 45) 。 そして、 二 つの文字セッ ト種グループ間で、 検索入力文字セッ ト列の全文出現頻度の低い文 字セッ 卜の文字セッ ト位置情報の文字セット位置審号を i、 全文検索頻度の高い 文字セッ トの文字セッ ト位置番号を jとするとき、 (文字セッ ト位置番号 iの文 字セッ 卜の文字セッ ト位置情報) ― (文字セット位置番号 jの文字セッ トの文字 セッ ト位置情報) = ( i - j ) x (最大属性数) である文字セッ ト位置情報を一 致結果として取り出す (S 46) 。 そして照合が終わったか否かを判断した後 (S 47、 48) 、 文字セッ ト位置情報の中から属性審号が a i の文字セット位置情報を 選別し、 検索入力に一致した検索単位と文字セット構成各文字の検索単位におけ る先頭文字からの位置を示す文字位置番号を検索結果として出力する。 ( S 49、 50) 。 なお、 ステップ S 48で照合が連続した場合、 これまでの一致結果の文字セ ッ ト位置情報と、 検索入力を並べ変えた文字セッ 卜の中の次の文字セッ 卜に該当 する文字セット種グループに格納されている文字セッ ト位置情報とで照合を行う ( S 46) 。
[0153] なお、 全文検索の高速性が求められる場合、 文字セッ トの構成文字数を増加す るとますます文字セッ 卜の出現頻度が低くなり、 各文字セット種グループに格納 される文字セット位置情報が少なくなるため、 容易に高速化を実現できる。
[0154] 上記例では、 A S C I Iコードによる英文処理の例を示したがフランス語やド ィッ ί吾も同様の文字セット構成と検索フ了ィルの構成で全文検索を高速化できる。 また他の表音文字で表現される言語の検索処理も同様に処理できる。
[0155] 7欠に第二実施例および第三実施例として、 表音文字である仮名文字と表意文字 である漢字とが混在して使用される日本語を用 、て全文検索処理を行う場合の例 について説明する。
[0156] 日本語の文字列は漢字混じりの文字列である。 このため漢字について着目する と漢字は字種が欧文字に比べて多く、 同一の漢字が繰り返し現れる頻度は、 文字を使用する欧文に比べると非常に少ない。 例えば、 日本語の文字列で「通信」 という 2つの文字列を使用する用語は多々あるとしても 「通信 · ·」 という文字 列は 「通信回線」、 「通信装置」 のように 4文字で同一の文字が発生する頻度は 非常に少なくなる。 また仮名文字あるいは平仮名文字も欧文文字に比べるとその 字種が多い。 このため、 漢字を含む文字列の場合には、漢字 1文字ごとの文字種 構成の検索ファィルぁるいは 2文^ ϋ成の文字セッ ト検索ファィルを用いて検索 処理を行っても検索処理を高速化できる。
[0157] 次に第二実施例を説明する。
[0158] この第二実施例では 2文字で構成される文字セッ トによる検索ファィル作成と 検索処理について説明する。 この第二実施例では 3文字で構成される文字セット の処理を行う第一実施例とは基本的に共通である。 ただし日本語処理を行うため、 J I Sコード表を用いて検索ファィルおよび文字セッ トグループアドレス表を作 成する点が異なる。
[0159] 以下具体的に説明する。
[0160] この第二実施例の検索ファイルは図 8に示すように J I Sコード表に記載され ている文字順に配列された文字セット群で構成される。 また、 各文字セット群は 図 9の文字セット群一覧に示すように J I Sコード表に示されている文字順に、 記載文字を先頭文字とする 2文字の文字列で構成される文字セッ トグループで構 成される。 この文字セッ ト種グループの先頭番地を図 9の文字セッ ト群一覧の記 載順に配列したものが図 10に示す文字セッ トグループアドレス表で る。
[0161] そして第一実施例と同じく、 検索単位の最大文字数 n = 10000、 最大属性数 a = 10、 8番目の検索単位である本文 (属性番号 = 5 ) の先頭から第 121〜125番 目の文字位置に 「通信文書の」 という文字列があった場合、 この文字列の中の 「 通信文書」 は、 「通信」 、 「信文」 、 「文書」、 「書の」 の文字セッ トに分解さ れ、 それぞれ「801215」、 「801225」 、 「801235」 、 「801245」 の文字セッ ト位 置情報が与えられ、 この文字セッ ト位置情報を検索ファィルの領域に格納する。 この 「通信文書」 の文字セッ ト位置情報を検索ファイルに格納した例を図 11に示 す。 この検索ファィル作成処理の手順は第一実施例と同じであるためその流れ図 は省略する。
[0162] またこのように作成された検索ファィルを用いる検索処理は、 入力された検索 入力文字列をその先頭文字から 2文字単位の文字セッ トに分解して検索入力文字 セッ ト列を作成し、 この各文字セッ トに該当する文字セット種グループを検索フ アイルから取り出して照合し、 検索入力文字セット列を構成できる文字セッ ト位 置情報の組み合わせを取り出し、 この取り出した文字セッ ト位置情報から検索入 力と同じ属性を有する文字セッ ト位置情報を照合一致として取り出す。 この照合 —致した文字セッ ト位置情報から検索単位審号と文字セット構成各文字の検索単 位における先頭文字からの位置を示す文字位置審号を検索結果として出力する。 なお、 検索入力文字列を先頭文字から 2文字単位の文字セッ トに分解したとき、 最後の文字セットが 1文字になり 2文字単位の文字セッ トを作成できないことが ある。 このときには最後の文字セッ トの直前の文字セッ 卜の後部から 1文字を取 り出し、 最後の文字セッ 卜の前部に連結して 2文字単位の文字セッ トを作成する。 検索入力文字列として 「通信文書」 が指定された場合、 検索入力文字セッ トは 「通信」 と 「文書」 になる。 全文出現頻度が「通信」 < 「文書」 の順であり、 照 合をこの順序に行うとすると、 まず検索ファィル中の 「通信」 の文字セッ トグル ープ欄と 「文書」 の文字セッ トグループ欄から取り出した文字セッ ト位置情報と の間で、 検索入力 「通信文書」 における 「通」 と 「文」 との文字位置が各々 「1 - と 「3」であるから、 これらの差に最大属性数 =10を乗算した 「一 20」 になる文 字セット情報を抽出して、 図 11の検索ファイルの 「通信」 内の文字セット位置情 報の 「801215」 と 「文書」 内の 「801235」 とを連続性ある文字セット位置情報 の組み合わせとして抽出することができる。 そして、 検索条件は「本文」 である ため、属性審号が「5」 の文字セット位置情報として 「801215」 と 「801235」が 抽出でき、 共通する検索単位審号「8」の検索単位と文字位置番号「121〜124」 が検索結果として取り出される。 このように、 検索処理の手順は第一実施例と同 じであるためその流れ図は省略する。
[0163] 次に第三^ 例として、 1文字ごとの文字種検索ファィルを作成して検索する 場合を說明する。 漢字はその字種が多いため、 1文字ごとの文字種グループ検索 ファイルを作成してもその検索処理を高速化できる。
[0164] この第三実施例は第二実施例とは、 文字セット種別の検索ファイルを構成する か、 1文字 fi^!Iの検索ファィルを作成するかの違いであり、 その検索ファィル作 成処理および検索処理は基本的には同一である。
[0165] まず、 検索ファィル作成処理においては、 第二実施例と比べると、 1文字ごと の文字種グループを生成するため、 文字檷ァドレス表および検索ファィルの構成 干異なる。
[0166] 検索ファィル作成処理における①検索ファィル領、域確保、 ②各構成文字への文 字位置情報の付与、 ③文字種別ごとにグループ化した文字位置情報のファィルへ の格納の 3つの動作は細部では異なるが基本的には第一実施例および第二実施例 と変わらない。
[0167] ① 検索ファイルの領域確保
[0168] 本第三鍾例では、 日本語の全文の構成文字を分類し、 J I Sコード表に記載 されている文字種別に出現頻度を計数し、 検索ファイルの領域を確保する。 これ により、 第二^ M例の図 10に相当する文字種グループの先頭番地を J I Sコード 表の記載順、に配歹 ίίした文字欄ァドレス表を図 12に示すように作成する。 この文字 欄ァドレス表は第二実施例の文字欄ァドレス.表に比べると文字種ごとにその先頭 番地が記載されたものであり、 その数が J I S第 1水準、 J I S第 2水準に従う ため、 未使用コードを含めて No.8836文字欄の数ですむ。
[0169] ② 各構成文字への文字位置情報の付与
[0170] この文字位置情報の付与は、 本実施例が 1文字ごとに文字位置情報を付与する ため、 文字位置番号が検索単位ごとに文字の先頭から順に 1、 2、 3…と昇順に 番号が付与されて文字位置番号が付与され、
[0171] 文字位置情報は、 最大検索単位文字数を π、 最大属性数を aとするとき、 文字位置情報コード = {検索単位番号 x n +文字位置審号 } x a +属性番号
[0172] …… (4 ) で与えるようにする。
[0173] 例えば第二実施例と同じような 「通信文書」 という文字列が 8番目の検索単位 である本文 (属性番号 = 5 ) の先頭から第 121〜124番目の文字位置にあった場 合、 この 「通」、 「信」、 「文」、 「書」 の文字にはそれぞれ「801215」、 「80 1225」、 「8012235 」、 「8012245 」 の文字位置情報が与えられる。
[0174] ③ 文字位置情報の検索ファイルへの登録
[0175] 文字種グループは、 図 12に示される文字欄アドレス表に基づいて J I Sコード 表に記載された順に検索ファィルに格納される。 この結果文字種グループに分け られて文字位置情報が格納された図 13に示される検索ファィルが作成される。 こ の検索ファィル作成処理の流れ図を図 14に示す。
[0176] 次にこの文字種毎に構成された検索ファィルの検索処理を説明する。
[0177] まず、 検索入力文字列の各構成文字に該当する文字欄ァドレス表内の文字欄先 頭番地を算出する。 そして検索入力文字歹 IJを出現頻度の低いものから並べ変え、 それぞれの文字に該当する文字種グループに格納されている文字位置情報を取り 出し、 その取り出した文字位置情報を基に、 出現頻度の低い文字種グループから 順に、 各文字種グループ間で検索単位が等しくかつ文字位置番号の差が検索入力 文字列の文字位置差に等し!/、文字位置情報の組み合わせを抽出する。 この文字位置情報の照合は、 検索入力文字列の全文出現鍾度の低!/ヽ文字の文字 位置番号を i、 全文出現頻度の高い文字の文字位置審号を jとするとき、
[0178] { (文字位置審号 iの文字の文字位置情幸 β) - (文字位置審号 jの文字の文字 位置情報) } = ( i - j ) x a - ( 5 )
[0179] a =最大属'隱
[0180] の式に合致する文字位置情報の組み合わせを抽出すればよい。
[0181] これにより、文字種グループ間で検索単位が共通で文字の連続性がある文字位 置情報が抽岀され、 この抽出した文字位置情報から検索入力と同じ属性を有する 文字位置情報を照^""致として取り出す。 この照合一致した文字位置情報から検 索入力に合致する検索単位と文字位置が抽出される。
[0182] 具体的に検索対象として が指定され、 検索入力文字列として 「通信文書」 が指定されたとする。
[0183] このとき、 各文字の全文出現頻度が「書」 く 「文」 く 「信」 < 「通」 の順であ り、 照合をこの順序に行うとする。 まず検索ファイル中の 「書」 の文字欄から取 り出した文字位置情報と 「文」の文字欄から取り出した文字位置情報とを上記 (5) 式を使用してその差が「一10」 になる文字位置情報を抽出すると、 検索ファイル の 「書」 内の文字位置情報の 「801245」 と 「文」 内の 「801235」 とを連続性ある 文字位置情報として抽出することができる。 次に、 「書」の中で照合結果として 残った文字位置情報と、 「信」 に該当する検索ファイルの文字欄から取り出した 文字位置情報を上記 (5)式を して、 その差が「一 20」 になる文字位置情報を抽 出すると、 「書」 内の文字位置情報の 「8012 」 と 「信」 内の文字位置情報「80 1225J とを連続性ある文字位置情報の組み合わせとして抽出することができる。 同様にして、 「書」 内の文字位置情報の 「801245」 と 「通」 内の文字位置情報「 801215」 とを連続性ある文字位置情報の組み合わせとして抽出することができる。 さらに検索条件は 「 」 であるから、 これまでの文字列照合で残った文字位置 情報の中から、属性蕃号が「5」 の文字位置情報として、 「801215」〜「801245 Jを抽出できる。 これにより、 この文字列が属する検索単位蕃号 「8」 の検索単位と文字位匿番 号「121 〜124 」 を検索結果として出力する。 この検索処理の流れ図を図 15に示 す。
[0184] なお、 この実施例において、 漢字については 1文字毎に、 連続する片仮名文字、 平仮名文字については 2文字セッ トとして検索ファィルを作成することもできる。 特に技術用語として片仮名文字が使用されることが多く、 検索入力文字列として 仮名文字が入力される場合があるため、 このように漢字については 1文字毎に、 連続する片仮名文字や平仮名文字については 2文字セットとして検索ファィルを 作成することも検索の高速化のために有効である。
[0185] 次に第四実施例ないし第六実施例として、 マルチキーワードを用いる部分一致 検索処理方式の例を説明する。
[0186] マルチキーワード情報検索方式として例えば図書検索システムの例を挙げて説 明する。 図書検索システムにおけるレコードは、 図書名、 著者名、 発行者名、 刊 行年、 抄録などのキーワードから構成されている。 そして、 このキーワードを舍 む各レコードを登録して検索ファィルを作成し、 検索入力としてキーヮードある いはキーヮードの一部の文字列を入力して対応するレコードを検索出力する。 この検索ファィルの作成を説明する。
[0187] まず検索対象となる各レコ一ドに登録順序に従って昇順にレコード識別符号を 付与する。 次に各レコードが有するキーワードの論理的な種別を属性として、 そ の属性を示すキーワード属性符号を付与する。 図書検索システムの場合、 図書名、 著者名、 発行者名、 刊行年、 抄録などの属性を示すキーワード属性符号が付与さ れ、 検索入力と図書検索システムのキーワード間に論理的な関連付けが行われて いる。 検索者は検索する図書を特定しゃすいキ一ヮードゃ記憶しているキーヮー ドを検索入力とする。 さらに、 キーワードを 1文字あるいは文字セットに分解し、 各文字にキーヮードの先頭からの文字位置を示す文字位置順序符号または各文字 セッ トにキーワードの先頭からの各文字セッ 卜の先頭文字位置を示す文字セッ ト 位置順序符号を付与する。 これらのレコード識別符号、 キーワード属性符号、 文 字位置順序符号または文字セッ ト位置順序符号とからキーワードの各文字の文字 位置情報または各文字セットの文字セッ ト位置情報を生成する。 このときキーヮ 一ド厲性を文字位置で表せるように、 キーヮード厲性符号ごとにあらかじめ設定 されたキーヮードの先頭文字位置を定数として文字位置情報または文字セット位 置情報に加算されるようにしている。 この文字位置情報または文字セット位置情 報を文字種または文字セット種ごとにグループ化し、 これら各グループを集合し て検索ファイルを作成する。 したがつてこの検索ファイルは、 文字種ごとに文字 位置情報または文字セット種ごとに文字セッ ト位置情報が格納された形のフアイ ル構造となる。
[0188] 検索処理では、 検^ λ力文字列と検索入力文字列属性とが射で 1個 ±入力さ れる。 各検索入力文字列について検索入力文字列を 1文字ごとあるいは文字セッ トに分解し、 検索ファィル中から検索入力を構成する文字と同じ文字の文字位置 情報あるいは検索入力を構成する文字セッ 卜と同じ文字セッ 卜の文字セット位置 情報を取り出す。 そしてレコード識別符号とキーワード属性符号が共通で文字位 衝!! I序符号または文字セッ ト位置順序符号が検索入力文字列の文字位置順序符号 あるいは文字セット位置順序符号と等しい順序であり、 かつそのキーワード属性 符号が検索入力と等しい文字位置情報または文字セット位置情報の組み合わせを 照合して取り出す。 取り出した文字位置情報または文字セット位置情報からすべ ての検索入力文字列に共通するレコ一ド識別符号を検索結果として取り出す。 次に第四実施例を説明する。
[0189] 本第四実施例での情報検索処理は、 検索処理に供するための検索対象となるレ コ一ドが有するマルチキーワードから作成するキーワード列について各キーヮー ドの構成文字をキーヮード列の先頭文字から 1文字ずつ取り出し、 その文字と次 に続く文字の合計 3文字で文字セットを作成し、 これらの文字セッ ト種ごとにグ ループ化した文字セッ 卜種グループで構成される検索ファィルを作成する検索フ ァィル作成処理と、 検索ファィルとの照合一致を行って検索入力に合致するキ一 ワードのレコ一ドを抽出する検索処理との二つに分けられる。 まず、 検索ファイル作成処理について説明する。
[0190] この検索ファイル作成処理は、 第一実施例と同じく、 ①検索ファイル領域確保、 ②各キーワード構成文字セッ トへの文字セッ ト位置情報の付与、 ③文字セッ ト種 別ごとにグループ化した文字セッ ト位置情報の検索ファィルへの格納の 3つに分 けることができる。 この各処理にっ 、てそれぞれ説明する。
[0191] ① 検索ファイル領域確保
[0192] 検索ファィルは、 第一実施例で用いた図 2に示すように、 A S C I Iコード表 Π己載されている文字順に配列された文字セッ ト群で構成される。 各文字セッ ト 群の 2文字目と 3文字目は第一実施例と同じく図 3の文字セッ ト群の第 2、 第 3 文字組み合わせ一覧の記載のように構成され、 図 4に示す文字セッ トグル一プア ドレス表の記載順に配列される。
[0193] ② 各キーワード構成文字セッ 卜への文字セッ ト位置情報の付与
[0194] ここで述べる文字セッ ト位置情報は、 レコードが有する各キ一ヮードをキ一ヮ 一ド属性番号に対応するキ一ヮード属性領域に配列して作成するキーヮード列に おいて、 各キーヮードを構成する文字セッ トが属するレコードの登録する順審を 示すレコード番号と、 キーワードにおけるその文字セッ 卜の出現する位置をその 文字セッ 卜の先頭文字の位置で示す文字セッ ト位置審号と、 キーワードの論理的 な種別を示すキーワード属性番号とで作成される。
[0195] まずレコード番号を説明する。 例えば、 一般的な図書検索システムでは、 図書 名、 著者名、 発行者名、 刊行年、 抄録のキーワードで図書を検索する。 このとき レコードは、 図書名、 著者名、 発行者名、 刊行年、 抄録のキーワードで構成され る検索対象であって、 このレコードが登録される順序に 1から昇順に番号を付与 してレコード審号とする。
[0196] 次にキーワード属性番号を説明する。 一般的に検索者は、 検索する図書を特定 しゃすいキーワードを検索入力としたり、 あるいは記憶しているキーワードを検 索入力する。 このため図書検索システムでは、 例えば図書名、 著者名、 発行者名、 刊行年、 抄録の各キ一ワードにキーヮード属性を付加し、 検索入力と図書検索シ ステムのキーワード間に論理的な関連付けを行っている。 ここではキーワード厲 性審号として、 図書名に 「1」、 著者名に 「2」、 発行者名に 「3」、 刊行年に 「4」、 抄録に 「5」 を付与する。
[0197] 次に文字セット位置審号を説明する。 キーワードごとに、 キーワードの先頭か ら 1文字ずつ取り出し、 その文字と次に続く文字の合計 3文字で文字セットを作 成し、 作成順に 1、 2、 3 · · ♦と异順に蕃号を付与して文字セット位置番号と する。 キーワードの最後の文字にはキーワードの最後を示す特殊記号 EM (ェン ドマーク) を 2文字付加し、 この EM記号と連結させて文字セットとし、 文字セ ッ ト位置蕃号を付与する。 なお EM記号には A S C I Iコード表の 「D E L_lの A S C I Iコード 「7 F」を割り当てる。 次にキーワード列を説明する。 レコ 一ドの有するキーワードに対する部分一致検索を検索入力文字セット列との文字 セット列照合により実現するために、 レコードの有するすべてのキ一ヮードを連 結して文字列を構成し、 これをキーワード列とする。 すなわち、 各キーワードを キーヮード属性番号に対応する固定長のキーヮード属性領域に配列しキーヮード 列を作成する。 これによりキーワード列における文字位置から、 その文字セット が属するキーワードの属性がわかる。 なお、 各キーワード属性領域に続いてキー ヮ―ド属性領域の区切りを示す EM記号がキーヮ一ド列に配列される。 この EM 記号はキ一ヮ一ドの最後を示す特殊記号 EMと同じものを使用する。
[0198] そしてこのキーヮード列を対象として、 レコード番号とキーワード属性番号と 文字セッ ト位置蕃号からキーワードを構成するすべての文字セッ トを整数からな るコードに変換して文字セッ ト位置情報を作成する。 この文字セット位置情報は、 次の式 ( 6 ) で与えられる整数のコードである。
[0199] 文字セッ ト位置情報コード-レコード審号 x n + (P a - 1 ) + p〜 (6 ) n :キーワード列文字数
[0200] P a :キーワード属性蕃号 aのキーワード属性領域のキーワード列における先
[0201] P :文字セッ ト位置番号 例えば、 キーワード列のキーワード属性領域サイズが、 図書名 =64バイ ト 64文 字、 著者名 =32バイ ト 32文字、 発行者 =64バイ ト 64文字、 刊行年 =4バイ 卜 4文 字、 抄録 =1000バイ ト 1000文字の図書検索システムにおいて、 レコード審号が 100 のレコードが、 「図書名 = E l e c t r o n i c Pub l i s h i ng」 、 「著者名 =J o o s t K i s t」 、 「発行者 =CR〇〇M HELM」 、 「刊 行年 =1990」、 「抄録 =W i t h~s o c i e t y」 の場合、 キーワード列は図 16に示すようになる。 このときキーワード列は 1169バイ ト 1169文字であるから各 文字セッ 卜の文字セッ ト位置情報は図 17に示すように構成される。
[0202] そして、 このように文字セッ ト位置情報をそれぞれ 4バイ 卜のコードで構成す れば、 1169文字数のキーワード列を 232÷1169 367万個取り扱うことが可能で あ^ )o
[0203] ③ 文字セット位置情報の検索ファィルへの登録
[0204] 次にこの各文字セッ トごとに付与された文字セッ ト位置情報を検索ファィルに 登録する。
[0205] 上述のように文字セッ ト種グループは、 図 2、 図 3に示す A S C ί Iコード表 に記載された順に検索ファイルに格納される。 そして各文字セッ 卜の文字セッ ト 位置情報を各文字セッ ト種グループに登録する。 この文字セッ ト位置情報の登録 は、 該当する文字セッ ト種グループの未格納領域の先頭にそれぞれ文字セッ ト位 置情報を格納することによって行われる。 このため、 登録順にレコ一ド審号を付 与すれば文字セッ ト種グループ内には文字セッ ト位置情報が数値順の昇順に登録 されることになる。
[0206] 上述の図書名 「E l e c t r o n i c Pub l i s h i ng」 の文字セッ ト 位置情報を検索ファイルに登録した例を図 18に示す。 このとき、 各グループ内の 文字セッ ト位置情報は昇順に格納される。 このファイル容量は、 文字セッ ト位置 情報が 4バイ トであると、
[0207] 4バイ ト x { (図書名構成文字数) + (著者名構成文字数) + (発行者名構
[0208] :0 成文字数) +4+ (抄録構成文字数) } i になる。
[0209] なお、 文字セッ ト位置情報の追加登録は、第一実施例と同様に追カ卩レコードが 有する各キーヮードの各文字セッ トに該当するグループの未格納領域の先頭新規 コ一ドを追加することで行う。 また、 削除は削除レコ一ドが有する各キーヮード の各文字セットに該当するグループ内の該当文字セッ ト位置情報を特殊記号 (こ こでは A S C I Iコードの 「0 0 0 0」 ) に変更することによって行う。 これに より追加登録と削除を短時間に行うことができる。
[0210] なお上述のようにこの検索ファィルの各文字セット?重グループごとに格 され た文字セット位置情報は、 第一実施例で示した図 4の文字セットグル一プアドレ ス表の各文字セッ トグループ先頭蕃地をディレクトリとして取り出すことができ α
[0211] JSLLの検索ファイルの作成処理の流れを図 19a、 図 19 bに示す。
[0212] すなわち、 文字セッ ト種の出現度数を計数して文字セッ ト欄アドレス表を作成 し (S 111、 112 ) 、 検索ファイルの領域を確保する (S 113 ) 。 次にレコード 登録順位カウンタを k = lに初期設定して、 レコード審号を 「1」 に、 キーヮー ド列文字数を n = 1169に、 キーヮード属性領域の先頭文字位置を図書名甩として
[0213] P t = K著者名用として Ρ 2 =66、 発行者名用として Ρ 3 =99、 刊行年用とし て Ρ 4 =164、抄録用として Ρ 5 =169を設定する (S 114 ) 。 そして最初のレ コードを取り出す (S 115 ) 。 ここまでが登録の前処理である。 ここからレコー ドごとの登録処理となり、 まず、 キーワード属性審号を a = lにセッ卜し (S 116)、 レコードの中からキーワード属性審号 aのキーワードを取り出す (S 117 ) 。 さ らに、 キーワードの構成文字数を mに、文字セット位置番号を p = lに、 キ一ヮ 一ド属性蕃号 aに該当するキーヮード属性領域の先頭文字位置を P a に設定する
[0214] (S 118 ) 。 次に、 取り出したキーワードの先頭文字から順に、 文字セット位置 蕃号 Pに相当する文字セット位置情報を
[0215]
[0216] の式を用いて作成する (S 119 ) 0 そして、 文字セッ ト位置番号 Pにある文字セッ トの文字セッ ト種グループが格 納されている検索ファイルの文字セッ ト攔を示す文字セッ ト欄ディレクトリ (文 字セット欄先頭審地) を文字セッ ト欄アドレス表から取り出して (S 120 ) 、 文 字セッ ト欄ディレク トリが示す検索ファイルの未格納領域の先頭行に文字セッ ト 位置情報を格納する (S 121 ) 。 そして、 P = P + 1、 m=m— 1とし、 キーヮ ード内のすべての文字セッ トを処理したところで (S 122、 S 123)、 a = a + 1 でキーワード属性番号を + 1して次のキーワード処理に移る (S 124、 S 125 ) 。 また、 レコードが有するすべてのキーワードを処理すると、 k = k + lでレコー ド登録順位カウンタを + 1して次のレコードの処理に移る (S 126、 S 127、 S 128 ) 。 全レコードの処理が終了すると登録処理が終わる (S 126 ) 。
[0217] 次にこのようにして作成された検索ファィルを用いる検索処理について説明す 。
[0218] 本実施例では、 検索ファイルから取り出した文字セッ ト位置情報を対象として、 検索入力文字列と同じ文字列を含むキーワードを文字列照合し、 かつ検索入力と 同じ属性であることを確認後、 すべての検索入力文字列に共通するレコードを検 索する例で説明する。
[0219] まず、 その検索処理は第一実施例と同様に以下の構成からなっている。
[0220] ①検索入力文字列をその先頭文字から 3文字単位の文字セッ 卜に分解し、 検索 入力文字セッ ト列を作成する。
[0221] ②検索入力文字セッ ト列の各文字セッ トに該当する文字セッ トグループアドレ ス表内の文字セッ トグループ先頭番地を算出する。
[0222] ③検索入力文字セッ ト列を出現頻度の少ない文字セッ トから順に並べ変える。
[0223] ④並べ変えた文字セッ ト列の先頭から順に該当する文字セッ ト種グループを検 索フアイルから取り出してそこに格納されている文字セット位置情報から検索入 力文字セッ ト列を構成できる文字セッ ト位置情報の組み合わせを取り出す。
[0224] ⑤抽出した文字セッ ト位置情報から検索入力と同じ属性を有する文字セッ ト位 置情報を取り出し照合一致とする。 ⑤①〜⑤を検索入力数分繰り返した後、 すべての検索入力文字列に共通するレ コ一ド蕃号を検索結果として出力する。
[0225] 次に具体的にそれぞれの処理を説明する。
[0226] ① 検索入力文字セット列の作成
[0227] 第一実施例と同様に、検索ファイルに格納されている文字セッ 卜と照合可能な ように、 検索入力文字列を先頭文字から 3文字単位の文字セットに分解し、 検索 入力文字セッ ト列とする。 なお、 検索入力文字列を先頭文字から 3文字単位の文 字セットに分解したとき、 最後の文字セッ トが 3文字未満になり文字セットを作 成できないことがある。 このときには、 最後の文字セットの直前の文字セットの 後部から、 不足文字数分の文字を取り出し、 最後の文字セットの前部に連結して 3文字単位の文字セッ トを作成する。
[0228] ② 各検索入力文字セッ 卜に該当する文字セッ トグル一プアドレス表内の文字セ ットグループ先頭蕃地の算出
[0229] 第一雄例の検索ファイルの作成時と同様に、 各検索入力文字セットの図 1と 図 3で示す各文字セットの記載順位を算出し、 これを文字セットグループアドレ ス表における各検索入力文字セッ トのァドレスボインタとする。
[0230] ③ 出現鏃順の並べ変え
[0231] そして、 第一 例と同様に、 検索ファイルの各文字セット種グループの先頭 蕃地を示す文字セットグル一プアドレス表の文字セットグループ先頭審地を参照 して、 各検索入力文字セッ卜の出現歩!^を調べ、 検索入力文字セッ ト列を全キー ワードにおける出現頻度の低レ、ものから順に並べ変える。
[0232] ④ 文字列の照合
[0233] 第一難例と同様に、 出現頻度の低い文字セットから文字セッ トグル一プアド レス表を参照してそれぞれの文字セット種グループ欄に格納されている文字セッ ト位置情報を取り出す。 そして取り出した文字セッ ト位置情報をもとに、 出現頻 度の低い文字セット種グループから順に、各文字セット種グループ間でレコード 番号とキ一ヮ一ド属性番号が等しくかつ文字セット位置番号の差が検索入力文字 列の該当する文字セッ トの先頭文字位置差に等しい文字セッ ト位匿情報の ,01み合 わせを抽出する。
[0234] この文字セッ ト位置情報の照合は、 検索入力文字セッ ト列の全キーワードにお ける出現頻度の低い文字セッ ト位置番号を i、 出現頻度の高い文字セッ ト位置番 号を jとするとき、
[0235] (文字セッ ト位置審号 iの文字セッ トの文字セッ ト位置情報) ― (文字セッ ト 位置番号 jの文字セッ ト位置情報) = i— j … ( 8 ) の式で照合すればよい。
[0236] ⑤ キーワード属性番号の照合
[0237] 文字列照合から得られた文字セッ ト位置情報の文字セッ ト位置審号についてキ 一ワード属性を照合する。 すなわち、 文字セット位置番号が 1〜64ならば文字セ ッ ト位置情報のキーワード属性は図書名であり、 文字セッ ト位置番号が 66〜97な らば文字セッ ト位置情報のキーワード厲性は著者名であり、 文字セッ ト位置審号 が 99〜162 ならば文字セッ ト位置情報のキーワード属性は発行者名であり、 文字 セッ ト位置番号が 164 -167 ならば文字セッ ト位置情報のキーワード属性は刊行 年であり、 文字セッ ト位置蕃号が 169〜: L168ならば文字セッ ト位置情報のキーヮ —ド属性は抄録であることがわかる。 そこで、 文字セッ ト列照合で得られた文字 セッ ト位置情報の中から検索入力時に指定された属性と同じ文字セッ ト位置情報 だけを取り出す。
[0238] ⑥ レコード審号の抽出
[0239] 検索入力の数だけ①〜⑤を繰り返し、 得られた各検索入力文字列に該当する文 字セッ ト位置情報間で、 すべての検索入力文字列に共通するレコ一ド審号を取り 出す。
[0240] なお、 1検索入力を複数の文字列で指定する場合、 例えば抄録のような文字数 が多い項目を対象とする場合よくあることであるが、 最初の文字列のキーワード 属性照合終了後、 2審目以降の文字列に対しては、 その文字列の最初の照合文字 セッ トの文字セッ ト種グループから、 それまで得られたレコード蕃号とキーヮー ド属性審号を有する文字セッ ト位置情報を取り出し、 得られた文字セット位置情 報を文字セッ ト列照合の先頭文字の文字セッ ト種グループとして同じ文字列内の 他の文字セッ トについて照合処理を行う。
[0241] 以上の②〜⑥の動作を具体例を挙げて説明する。
[0242] 検索対象として図書名が指定され、 検索入力文字列としては「E 1 e c t r o j が指定されたとする。 この場合図書名のキーワードの属性の属性審号は 「: U と する。 検索入力が「E 1 e c t r o」 であるから、 検索入力文字セットは「E 1 e」 と 「c t r j と 「o」 になる。 しかし 「o j は 1文字なので、 「o」 の前に ある 2文字と 結して 「t r o」 とする。 全文出現頻度が「E 1 e j く 「c t r」 く 「t r o jの順であるとすると、 照合をこの順序に行う。 まず検索ファイル中 の 「E 1 e」 の文字セットグループ ffiから取り出した文字セット位置情報と 「c t r jの文字セッ トグループ欄から取り出した文字セッ ト位置情報との間で、 検 索入力「E 1 e c t r o _j における 「E」 と 「c」 との文字位置が各々 「1」 と 「 であるから、 文字セット位置差が「一 3」 になる文字セッ ト位置情報を抽 出して図 18の検索ファイルの 「E I e j 内の文字セット位置情報の 「116901」 と 「c t r」 内の 「116904」 とを連続性ある文字セッ ト位置情報の組み合わせとし て抽出することができる。 この照合結果と 「t r o j の文字セットグル一プ欄か ら取り出した文字セッ ト位置情報との間で、 検索入力 「; E 1 e c t r o」 におけ る 「Ej と 「t」 との文字位置が各々 「1」 と 「5」 であるから、 文字セット位 置差が「4」 になる文字セッ ト位置情報を抽出して、 「E 1 e」 内の上記照合結 果である文字セッ ト位置情報の 「116901」 と図 18の検索ファイルの 「t r o」 内 の文字セッ ト位置情報の 「116905」 とを連続性ある文字セッ ト位置情報の組み合 わせとして抽出できる。 したがって、 検索入力「Ε 1 e c t r 0 j に対し、文字 セッ 卜位置情報「116901」 と 「116904」 と 「116905」 とが、 レコード蕃号とキー ワード属性蕃号が等しくかつ連続である文字セットであることがわかる。 さらに、 キーワード属性は 「図書名」であるから、 これまでの文字セット列照合で残った 文字セット位置情報の中から、 文字位置審号が、 1〜64の文字セット位置情報と して 「116901」 と 「116904」 と 「116905」 を抽出できる。
[0243] また文字セッ ト位置番号は、 キーワード列の文字数が「1169」 であるから、 116901 + 1169=100余り 1から、 1と 4と 5であることがわかる。 またこの文字 列が属するレコード番号は 100 であることもわかる。
[0244] この検索処理動作を図 20 a、 図 20 bにフローチャートとして示す。
[0245] すなわち、 キーヮード列文字数を n = 1169に、 キーヮード属性領域の文字位置 範囲 P a を図書名は P , =1〜64、 著者名は P 2 =66〜97、 発行者名は P 3 =99 〜162、 刊行年は P 4 =16 〜167、 抄録は P s =169〜1168に、 キーワード属 性蕃号を a = 1に設定し ( S 131 ) 、 キーヮード属性番号 aの検索入力文字列が ある場合にはそれを取り出す (S 132、 S 133 ) 。 ここからは検索入力文字列の 照合処理になる。 そこで、 検索入力を取り出し、 検索入力文字列の先頭から 3文 字単位の文字セットに分割して検索入力文字セット列を作成し、 その文字セッ ト 数一 1を照合回数 qとし (S 133、 S 134 ) 、 検索入力文字セッ ト列を全キーヮ —ドにおける出現頻度の低いものから順に並べ変える (S 136 ) 。 そして検索フ アイルから、 並べ変えた文字セットに該当する文字セッ ト種グループ欄に格納さ れている文字セット位置情報を取り出す (S 137 ) 。 次に検索入力文字セッ ト列 の全キ一ワードにおける出現頻度が低レ、文字セッ トの文字セッ ト位置審号を i、 出現頻度の高い文字セッ トの文字セッ ト位置審号を jとするとき、 (文字セッ ト 位置審号 iの文字セッ トの文字セッ ト位置情報) 一 (文字セッ ト位置審号 jの文 字セッ 卜の文字セット位置情報) = i— jである文字セット位置情報を取り出す ( S 138 ) 。 同様の処理を検索入力文字セッ ト列の残りの文字セッ トについても 行い (S 139、 S 140 ) 、 残った文字セッ 卜位置情報の中から文字セッ ト位置番 号がキーワード属性審号 aの文字位置範囲 P a 内にあるレコ一ド審号だけを取り 出す。 文字セッ ト位置情報から文字セッ ト位置審号を取り出すには、 次の式 (9 ) を用いる。
[0246] (文字セッ ト位置情報) ÷ (キーヮード列文字数) =レコード審号余り文字セッ ト位置蕃号 … (9 ) ここまでの処理で、 検索入力文字列を文字列として持ち、 さらに検索入力され た属性と同じキーワードを有するレコード蕃号がわかる (S 141 ) 。 抄録まで同 様の処理を行い、 検索入力された属性と同じキーヮードを有するレコ一ド番号を 取り出す (S 142、 S 143 ) 。 すべての検索入力文字列の照合が終わると、残つ たレコード蕃号を对象として、 すべての検索入力文字列に共通するレコ一ド審号 を検索結果として出力する (S 144 ) 上記実施例では検索入力が 1個以上の場 合について説明した。 また、 検索入力が複数の場合には各検索入力間で論理積演 算を行う例として説明したが、 論理積演算以外の論理演算を伴う複数の検索入力 の場合は照合結果として残ったレコード番号を各検索入力に対応付けて、 指定さ れた論理演算を行って満足するレコ一ド蕃号を検索結果として出力する。
[0247] なお、 第一実施例の場合と同じく、 他の表音文字についての検索処理も同様に 行なえる。
[0248] また、 検索の高速性が求められる場合、 文字セットの構成文字数を増加すると ますま^字セットの出現頻度が低くなり、 各文字セット種グループに格納され る文字セッ ト位置情報が少なくなるため、 容易に高速化を実現できる。
[0249] 次に第五難色例を説明する。
[0250] この第五^ M例は、 第一実施例に対する第二実施例の関係と同じであり、 日本 語検索処理を行う場合に、 2文字単位の文字セッ トを用い、 J I Sコード表にし たがった検索ファィルを作成する。
[0251] すなわち、 キーワード列のキーワード属性領域サイズが、 図書名 64バイ ト 32文 字、 著者名 32バイ ト 16文字、 発行者名 =64バイ ト 32文字、 刊行年 = 8バイ ト 4文 字、 抄録 400バイト 200文字の図書検索システムで、 レコード審号が 100 のレコ ードが、 「図書名 =通信 の構造」 、 「著者名 =田中一郎」、 「発行者 =太平 洋出版」、 「刊行年 =1990」、 「抄録 =初めての人にも〜てしている」 の場合は、 そのキーヮード歹 1Jは第四実施例と同じように図 21のようになり、 そのときのキー ワード列は 578バイト 289文字であるため、 各文字セッ卜の文字セット位置情報 は図 22のように作成される。 この図書名の 「通信文書の構造」 の文字セッ ト位置情報を登録した^ ¾索フアイ ルの例を図 23に示す。
[0252] 本第五実施例の検索フ了ィルの作成処理および検索処理手順はキーヮード文字 数およびキーヮード属性領域の設定が異なるだけで第四実施例と同じである。 第二実施例で述べたように、 欧文字よりその字種が多い仮名文字および漢字を 使う日本語文書の検索処理では 2文字セッ トの検索フアイルを用いることは有効 である。 なお、 第三実施例のところで述べたように、 仮名文字のみこの第五実施 例による文字セッ 卜の検索ファイルとし、 漢字については第六実施例による 1文 字単位の文字種グループ検索ファィルとしてもよい。
[0253] 次に第六実施例を説明する。
[0254] この第六実施例は、 第一実施例および第二実施例に対する第三実施例の関係と 同じであり、 漢字を舍む日本語の場合には、 1文字単位の文字位置情報を格納し た文字種グループから構成された検索ファィルを用いる。
[0255] 第五実施例の図 21に示すキーワード列のレコードが与えられたとき、 この第六 実施例は 1文字単位で文字位置情報を作成するため、 その文字位置情報は、 文字位置情報コード-レコード番号 X H + ( P a - 1 ) + p
[0256] n :キーワード列文字数
[0257] P a :キーヮード属性番号 aのキーヮード属性領域のキーヮード列における先 頭文字位置
[0258] P :文字位置番号
[0259] で与えられる数字コードである。
[0260] このため第五実施例の図 21に示すキーワード列のレコードが与えられたとき、 その文字位置情報は図 24のように構成される。 また図書名 「通信文書の構造」 の の文字位置情報を検索ファィルに登録した例を図 25に示す。
[0261] この第六実施例での検索ファイルの作成処理の流れ図を図 26 a、 図 26 bに、 ま た検索処理の流れ図を図 27 a、 図 27 bに示す。
[0262] この検索ファィル作成処理および検索処理の手順は基本的には第四実施例と同 じであり、 検索フアイルが 1文字単位の文字種別グループで構成されて!、る点お よび日本語処理のため J I Sコードに基づいて構成されている点が異なっている c 〔産業上の利用可能性〕
[0263] 本発明は検索対象文字列の文字セット種ごとにその文字セッ 卜が属する検索単 位識別符:号、文字セッ ト位置順序符号、 検索単位の ί重別を示す属性蕃号からなる 文字セッ ト位置情報を格納した検索ファイルを作成し、 この検索ファイルを検索 入力の文字列を構成する文字セット種ごとにその文字セット位置情報を取り出し て、検索入力に合致する文字列を検索するようにした。 また字種の多い文字につ いては文字種別に文字位置情報が格納された検索ファィルを作成して、 検索入力 の文字列を構成する文字種ごとにその文字位置情報を取り出して検索入力に合致 する文字列を検索するようにした。
[0264] このため、 本発明には次に述べる優れた効果がある。
[0265] (1) 検索処理のための文字列照合回数を低減することができるため、 高速照合を 行うことか'できる。
[0266] (2) 文字セットと文字位置に着目して検索処理を行うため任意の文字列検索を行 うことができ、全文検索処理のィンデックス方式やプリサーチ方式のように登録 時に文字列抽出を行う必要はな
[0267] (3) 専用のハードウエアを用いることなくソフトウェアだけで高速検索を実現で きるため、 汎用の情報処理装置で全文検索を効率よく行うことができ汎用性に富 む。
[0268] (4) データベースシステムでマルチキ一ヮ一ドを用いた部分一致検索を行う場合 に、 従来のィンデックス方式のように巨大な部分一致検索甩文字列のィンデック スを必要とせず、 また,検索対象となるレコ一ドが有するキーヮ一ドから自動的に 検索ファィルを作成することができるため、 データベースシステムを経済的に構 築できる。
[0269] (5) 全文検索のデータベースシステ厶に利用したとき、 その検索ファィルの作成 にキ一ヮ一ド抽出を行う必要がなく、 機械入力された論文などの文字列から自動 的に検索フ了ィルを作成することができるため、 データベースシステムを経済的 にかつ効率よく構築することが可能である。
[0270] (6) 欧文字のように字種の少ない文字からなる文字列も、 その文字列を構成する 文字セッ ト種グループで文字セッ ト位置情報を格納した検索ファィルを作成して 検索することにより、 同じ文字列の出現頻度は少ないため各文字セッ 卜の出現頓 度を低く抑えることができ、 出現頻度の少ない文字セッ 卜での検索照合を可能と するので高速検索が可能となる。
[0271] (7) 検索処理は検索入力文字列の対応する文字または文字セッ 卜の文字位置情報 または文字セッ ト位置情報のみを取り出せばよいだけなので、 検索ファイルの対 応する文字種の文字位置情報または文字セッ 卜の文字セッ ト位置情報が外部記憶 装置にあった場合でも、 この検索ファィルの内容を主メモリに転送する時間が少 なくてすみ、 検索処理を高速化することができる。
权利要求:
Claims詰:求の範囲
1. 検索射象となる文字列を検索を行う単位である検索単位に分けこの検索単位 ごとに昇順の符号を付与する検索単位識別符号付与手段と、
この分けられた検索単位に対してその検索単位の論理的な区分を示す属性符号 を付与する属性符号付与手段と、
検索対象となる文字列を各文字ごとにその文字と次に続く合計 r文字 (ただし rは 2 _Lの自然数) からなる文字セッ トとし、 この文字セッ トの属する検索単 位中での文字セットの先頭文字位置を示 f¾字セット位置順序符号を付与する文 字セット位置順序符号付与手段と、
上記検索単位識別符号と文字セット位置順序符号と属性符号とからなる文字セ ッ ト位置情報を作成して、 この文字セッ ト位置情報を文字セット種ごとの領域に 格納して検索フ了ィルを作成する手段と
を備えた情報検索処理方式。
2. 文字セット位置情報は、
{ (検索単位識別符号 x n ) 十文字セット位置順序符号 } x a +属性符号 n :最大検索単位文字数
a :最大属性数
なる数字コ一ドとして与えられる請求項 1記載の情報検索処理方式。
3. 検索対象となる文字列について、 文字列を構成する文字セットごとに、文字 セット列からなり検索を行う単位である検索単位に昇順に付された検索単位識別符 号と、 検索単位中でのその文字セッ 卜の先頭文字位置を示す文字セット位置順序符 号と、 検索単位の論理区分を示す属性符号とからなる文字セッ ト位置情報を作成 し、 文字セット a ^ごとに格納した検索ファイルを備え、
検索入力文字列の構成文字を先頭文字から r文字単位の文字セットに分解した 検索入力文字セット列を構成し、分解した文字セットと同じ文字セットの文字セ ッ ト位置情報を上記検索ファイルから取り出す手段と、
この取り出した各文字セッ 卜の文字セッ ト位置情報間で、 検索単位識別符号が 共通で文字セット位置順序符号の差が検索入力文字列の該当する文字セットの先 頭文字位置差に等しくかつその属性符号が検索入力と等しい文字セッ ト位置情報 の組み合わせを抽出する手段と、
この抽出された文字セッ ト位置情報の組み合わせに基づいて文字セッ ト列が属 する検索単位および各文字セッ ト構成各文字の検索単位における先頭文字からの 位置を示す文字位置を検索結果として出力する手段と
を備えた情報検索処理方式。
4. 検索入力文字セッ ト列と同じ文字セッ ト列を構成できる文字セット位置情報 の組み合わせの抽出は、 検索入力の出現頻度の低い文字セッ 卜から順に行う請求 項 3記載の情報検索処理方式。
5. 検索入力文字セッ ト列と同じ文字セット列を構成できる文字セッ ト位置情報 の組み合わせの抽出は、 出現頻度の低い文字セットの文字セッ ト位置順序符号を i、 出現齄度の高 、文字セッ トの文字セッ ト位置順序符号を jとするとき、 (文 字セッ ト位置順序符号 iの文字セッ 卜の文字セッ ト位置情報) ― (文字セッ ト位 置順序符号 jの文字セッ トの文字セッ ト位置情報) = ( i - j ) X (最大属性数 ) に合致する文字セッ ト位置情報の組み合わせを抽出する
請求項 3または請求項 4記載の情報検索処理方式。
6. 検索対象文字列が記号を含む欧文文字列の場合は少なくとも 3文字記号単位 の文字セッ 卜で記号を含む欧文字の文字セット種のみの検索ファイルを用いる請 求項 1ないし 5のいずれか記載の情報検索処理方式。
7. 検索対象文字列が漢字を含む日本語文字列の場合は、 2文字単位の文字セッ ト種で構成された検索ファィルを用いる請求項 1ないし 5のいずれか記載の情報 検索処理方式。
8. 検索対象文字列が漢字を含む日本語文字列の場合は、 仮名文字について少な くとも 2文字単位の文字セット種で構成された検索フアイルを用 、る請求項 1な いし 5のいずれか記載の情報検索処理方式。
9. 検索対象となる文字列を検索を行う単位である検索単位に分けこの検索単位 ごとに昇順の符号を付与する検索単位識別符号付与手段と、
この分けられた検索単位に対してその検索単位の論理的な区分を示す属性符号 を付与する属性符号付与手段と、 検索対象となる文字列を各文字ごとに検索単位中での位置を示す文字位置順序 情報を付与する文字位置匿序符号付与手段と、
上記検索単位識別符号と文字位置順序符号と属性符号とからなる文字位置情報 を作成して、 この文字位置情報を文字種ごとの領域に格鈉して検索ファィルを作 成する手段と
を備えた情報検索処理方式。
10. 文字位置情報は、
{ (検索単位識別符号 x n ) +文字位置順序符号 } x a +属性符号
n :最大検索単位文字数
a :最大属性数
なる数字コ一ドとして与えられる請求項 9記載の情報検索処理方式。
11. 検索対象となる文字列について、 文字列を構成する文字ごとに、 文字検索を 行う単位である検索単位に昇順に付された検索単位識別符号と、 検索単位中での その文字の位置を示す文字位置順序符号と、 検索単位の論理区分を示す属性符号 とからなる文字位置情報を文字種別ごとに格納した検索ファィルを備え、 検索入力文字列の構成文字と同じ文字の文字位置情報を上記検索ファィルから 取り出す手段と、
この取り出した各文字の文字位置情報間で、 検索単位識別符号が共通で文字位 置順序符号が検索 の文字列と等しい文字位置情報の組み合わせを抽出する手 段と、
この抽出された文字位置情報の組み合わせに基づいて文字列が属する検索単位 および文字位置を検索結果として出力する手段と
を備えた情報検索処理方式。
12. 検索入力文字列を構成できる文字位置情報の組み合わせの抽出は、検索入力 文字の出現頻度の低い文字から順に行う請求項 11記載の情報検索処理方式。
13. 検索入力の文字列を構成できる文字位置情報の組み合わせの抽出は、 出現頻 度の低い文字の文字位置順序符号を i、 出現頻度の高い文字の文字位置順序符号 を jとするとき、 (文字位置順序符号 iの文字の文字位置情報) ― (文字位置順 序符号 jの文字の文字位置情報) = ( i - j ) x (最大属性数) に合致する文字 位置情報の組み合わせを抽出する
請求項 11または請求項 12記載の情報検索処理方式。
14. 検索対象となるレコードごとに昇順の符号を付与するレコード識別符号付与 手段と、
このレコードが有する各キーワードにキーワードの論理的な区分を示す属性符 号を付与するキーワード属性符号付与手段と、
このキーワードを各文字ごとにその文字と次に続く合計 r文字 (但し rは 2以 上の自然数) からなる文字セッ トとし、 この文字セッ トにキーヮード中での文字 セッ トの先頭文字位置を示す文字セッ ト位置順序符号を付与する文字セッ ト位置 順序符号付与手段と、
上記レコード識別符号とキーワード属性符号と文字セッ ト位置順序符号とから なる文字セッ ト位置情報を作成して、 この文字セッ ト位置情報を文字セッ ト種ご との領域に格納して検索ファィルを作成する手段と
を備えた情報検索処理方式。
15. 文字セッ ト位置情報は、 レコードを構成する各キーワードをキーワード属性 符号に対応してキーワード属性領域に配列されたキーワード列の各キーワードを 構成するすべての文字セッ トについて、
レコード識別符号 x n + ( P a - 1 ) +文字セッ ト位置順序符号
n :キーワード列文字数
P a :キーワード属性符号 aのキ一ヮ一ド属性領域のキーワード列における先 頭文字位置
なる数字コ一ドとして与えられる請求項 14記載の情報検索処理方式。
16. 検索対象となるレコードのキーワード列について、 各キーワードを構成する 文字ごとに、 レコードごとに昇順に付与されたレコード識別符号と、 このレコー ドが有するキーヮードの論理区分を示すキーワード属性符号とキーワード中での その文字セッ 卜の先頭文字位置を示す文字セッ ト位置順序符号とからなる文字セ ッ ト位置情報を文字セッ ト種別ごとに格納した検索ファイルを備え、
検索入力文字列の構成文字を先頭文字から r文字単位の文字セッ トに分解した 検索入力文字セッ ト列を構成し、 分解した文字セッ 卜と同じ文字セッ 卜の文字セ ット位置情報を上記検索ファィルから取り出す手段と、
この取り出した各文字セッ トの文字セット位置情報間で、 レコード識別符号と キーヮード属性符号が共通で文字セット位置順序符号が検索入力文字列の該当す る文字セットの先頭文字位置差に等しく、 かつそのキーワード属性符号が検索入 力と等しい文字セット位置情報の組み合わせを抽出する手段と、
この抽出された文字セット位置情報の組み合わせに基づいて検索入力に対応す るレコ一ド識別符号を検索結果として出力する手段と
を備えた情報検索処理方式。
17. 検索入力文字セッ ト列と同じ文字セッ ト列を構成できる文字セッ ト位置情報 の組み合わせの抽出は検索入力文字セット列の全キ一ワードにおける出現頻度の 低 、文字セッ トから順に行う請求項 16記載の情報検索処理方式。
18. 検索入力文字セッ ト列と同じ文字セッ ト列を構成できる文字セット位置情報 の組み合わせの抽出は、 検索入力文字セッ ト列の全キーワードにおける出現频度 の低い文字セッ ト位置順序符号を i、 出現頻度の高い文字セッ ト位置順序符号を jとするとき、 (文字セッ ト位置順序符号 iの文字セッ トの文字セット位置情報 ) ― (文字セッ ト位置順序符号 jの文字セッ トの文字セッ ト位置情報) = i - j に合致する文字セッ ト位置情報の組み合わせを抽出する請求項 16または請求項 17 記載の情報検索処理方式。
19. キーヮードが記号を含む欧文字列の場合は、 少なくとも 3文字記号単位の文 字セットで記号を含む欧文字の文字セッ ト種のみの検索ファィルを用 、る請求項 14ないし請求項 18のいずれか記載の情報検索処理方式。
20. キーワードが漢字を含む日本語文字列の場合は、 2文字単位の文字セット種 で構成された検索ファィルを用いる請求項 14ないし請求項 18のいずれか記載の情 報検索処理方式。
21. キーワードが漢字を含む日本語文字列の場合は、 仮名文字について少なくと- も 2文字単位の文字セット種で構成された検索ファィルを用いる請求項 14ないし 請求項 18のいずれか記載の情報検索処理方式。
22. 検索对象となるレコードごとに昇順の符号を付与するレコード識別符号付与 手段と、 このレコードが有する各キーワードにキーワードの論理的な区分を示す厲性符 号を付与するキーワード属性符号付与手段と、
このキーワードを各文字ごとに分解し、 各文字にキーワード中での位置を示す 文字位置順序符号を付与する文字位置順序符号付与手段と、
上記レコード識別符号とキーワード属性符号と文字位置順序符号とからなる文 字位置情報を作成して、 この文字位置情報を文字種ごとの領域に格納して検索フ アイルを作成する手段と
を備えた情報検索処理方式。
23. 文字位置情報は、 レコードを構成する各キーワードをキーワード厲性符号に 対Sしてキーヮード属性領域に配列されたキ一ヮ一ド列の各キーヮードを構成す るすべての文字について、
レコード識別符号 x n + ( P a — 1 ) 十文字位置順序符号
n :キーワード列文字数
P a :キーヮード属性符号 aのキーヮード属性領域のキーヮード列における先 頭文字位置
なる数字コ一ドとして与えられる請求項 22記載の情報検索処理方式。
24. 検索対象となるレコードのキーワード列について、 各キーワードを構成する 文字ごとに、 レコードごとに昇順に付与されたレコード識別符号と、 このレコー ドが有するキーヮードの論理区分を示すキーヮード属性符号とキーヮード中での その文字の位置を示す文字位置順序符号とからなる文字位置情報を文字種別ごと に格納した検索ファィルを備え、
検索入力文字列の構成文字と同じ文字の文字位置情報を上記検索ファィルから 取り出す手段と、
この取り出した各文字の文字位置情報間で、 レコ一ド識別符号とキーワード厲 性符号が共通で文字位置順序符号が検索入力の文字歹 ijと等しい順序であり、 かつ そのキーヮ一ド属性符号が検索入力と等しい文字位置情報の組み合わせを抽出す る手段と、
この抽出された文字位置情報の組み合わせに基づいて検索入力に対応するレコ -ド識別符号を検索結果として出力する手段と 5 ϋ を備えた情報検索処理方式。
25. 検索入力の文字列を構成できる文字位置情報の組み合わせ抽出は、 検索入力 文字の全キ一ワードにおける出現頻度の低レ、文字から順に行う請求項 24記載の情 報検索処理方式。
26. 検索入力の文字列を構成できる文字位置情報の組み合わせの抽出は、 出現頻 度の低い文字の文字位置順序符号を i、 出現頻度の高い文字の文字位置順序符号 を jとするとき、 (文字位置順序符号 iの文字の文字位置情報) ― (文字位置順 序符号 jの文字の文字位置情報) = i - jに合致する文字位置情報の組み合わせ を抽出する請求項 24または請求項 25記載の情報検索処理方式。
类似技术:
公开号 | 公开日 | 专利标题
Gagie et al.2012|New algorithms on wavelet trees and applications to information retrieval
Lovins1968|Development of a stemming algorithm
Stonebraker et al.1983|Document processing in a relational database system
JP3581652B2|2004-10-27|データ検索システムと方法およびサーチ・エンジンにおけるその使用
US5099426A|1992-03-24|Method for use of morphological information to cross reference keywords used for information retrieval
US5276616A|1994-01-04|Apparatus for automatically generating index
EP0597630B1|2002-07-31|Method for resolution of natural-language queries against full-text databases
US6151604A|2000-11-21|Method and apparatus for improved information storage and retrieval system
JP4544674B2|2010-09-15|選択文字列に関連する情報を提供するシステム
US6470347B1|2002-10-22|Method, system, program, and data structure for a dense array storing character strings
US7747642B2|2010-06-29|Matching engine for querying relevant documents
US5745745A|1998-04-28|Text search method and apparatus for structured documents
US5721899A|1998-02-24|Retrieval apparatus using compressed trie node and retrieval method thereof
US8473501B2|2013-06-25|Methods, computer systems, software and storage media for handling many data elements for search and annotation
US5983171A|1999-11-09|Auto-index method for electronic document files and recording medium utilizing a word/phrase analytical program
US5926811A|1999-07-20|Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
US7516130B2|2009-04-07|Matching engine with signature generation
US4554631A|1985-11-19|Keyword search automatic limiting method
Pfeifer et al.1996|Retrieval effectiveness of proper name search methods
US5706496A|1998-01-06|Full-text search apparatus utilizing two-stage index file to achieve high speed and reliability of searching a text which is a continuous sequence of characters
JP2693780B2|1997-12-24|テキストプロセシングシステム、及び単位又は化学式が正確且つ一貫して使用されているかどうかをテキストプロセシングシステムでチェックするための方法
US6173251B1|2001-01-09|Keyword extraction apparatus, keyword extraction method, and computer readable recording medium storing keyword extraction program
KR101157693B1|2012-06-21|토큰스페이스 저장소와 함께 사용하기 위한 멀티-스테이지질의 처리 시스템 및 방법
US6131082A|2000-10-10|Machine assisted translation tools utilizing an inverted index and list of letter n-grams
KR100666064B1|2007-01-10|인터랙티브 검색 쿼리 개선 시스템 및 방법
同族专利:
公开号 | 公开日
引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题
法律状态:
1992-06-11| AK| Designated states|Kind code of ref document: A1 Designated state(s): CA US |
1992-06-11| AL| Designated countries for regional patents|Kind code of ref document: A1 Designated state(s): DE FR GB |
1993-09-30| NENP| Non-entry into the national phase in:|Ref country code: CA |
优先权:
申请号 | 申请日 | 专利标题
[返回顶部]